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HINTERGRT JNP PER ERFTNDUNG 



1. (tEBIET PER F.RFINDUNG 

Pie Erfindung betrifft das Gebiet von Verfahren und Vorrichtungen zum 
Unterhalten eines konsistenten Pateisystems und zum Schaffen von aus- 
schlieBlich lesbaren Kopien des Pateisystems. 

2. FTNSCHLAGIGKR STANP PER TECHNIK 

Samtliche Pateisysteme mussen auch bei Systemausfall Konsistenz be- 
wahren. Im Stand der Technik wurde zu diesem Zweck eine Reihe unter- 
schiedlicher Konsistenzmethoden eingesetzt. 

Eine der schwierigsten und zeitraubendsten Anforderungen bei der Ver- 
waltung jedes Pateiservers ist die Anfertigung von Sicherungen der Patei- 
daten.. Traditionelle Losungen bestanden darin, eine Kopie der Paten auf 
Band Oder andere Offline-Patentrager zu bringen. Bei einigen Pateisyste- 
men muB beim SicherungsprozeB der Patenserver offline gesetzt werden, 
urn sicher zu gehen, daB der Sicherungsvorgang vollstandig konsistent ist. 
Ein jungerer Fortschritt bei der Patensicherung ist die MSglichkeit, ein 
Pateisystem rasch zu ,Jdonen" (d.i. ein zum Stand der Technik gehoriges 
Verfahren zum Erzeugen einer nur lesbaren Kopie des Pateisystems auf 
Platte), und eine Patensicherung anhand des Klons, und nicht aus dem 
aktiven Pateisystem zu erstellen. Bei diesem Typ von Patei kann der Pa- 
tenserver beim Sicherungsbetrieb online bleiben. 



Datenbank-Konsistenz 



Eine herkommliche Datenbank (Dateisystem) ist von Chutani, et al. offen- 
bart in seinem Artikel mit dem Titel The Episode File System, USENIX, 
Winter 1992, Seiten 43-59. Dieser Artikel beschreibt das Episode- 
Dateisystem, bei dem es sich urn eine Datenbank unter Verwendung von 
Meta-Daten (das heiBt Inoden-Tabellen, Verzeichnissen, Momentaufnah- 
men und indirekten Blocken) handelt. Es kann als eigenstandige oder als 
verteilte Datenbank verwendet werden. Episode unterhalt eine Mehrzahl 
separater Datenbank-Hirarchien. Episode nimmt kollektiv auf mehrere 
Datenbanken als „Aggregat" Bezug. Insbesondere schaffi Episode einen 
Klon jeder Datenbank zur langsamen Anderung von Daten. 

In Episode enthalt jede logische Datenbank eine „Anoden"-Tabelle. Eine 
Anoden-Tabelle ist Equivalent einer in Datenbanken wie dem Berkeley 
Fast File System verwendeten Inoden-Tabelle. Es handelt sich um eine 
252-Byte-Struktur. Anoden dienen zum Speichern samtlicher Benutzerda- 
ten sowie von Meta-Daten innerhalb des Episode-Dateisystems. Eine An- 
ode beschreibt das Hauptverzeichnis einer Datenbank einschlieBlich Hilfs- 
dateien und Verzeichnissen. Jedes derartige Dateisystem wird in Episode 
als eine JDateimenge" (Fileset) referenziert. Samtliche Daten innerhalb 
einer Dateimenge konnen geortet werden, indem iterativ durch die An- 
oden-Tabelle gegangen und jede Datei ihrerseits verarbeitet wird. Episode 
erzeugt eine ausschlieBlich lesbare Kopie einer Datenbank, die hier als 
„Klon" bezeichnet wird, und sie nutzt gemeinsam Daten mit dem aktiven 
Dateisystem unter Einsatz von Copy-On- Write-Methoden (COW- 
Methoden; Kopieren nach Schreiben). 

Episode verwendet eine Protokollmethode zur Wiedererlangung einer oder 
mehrerer Datenbanken nach einem Systemzusammenbruch. Das Protokol- 
lieren garantiert, daB die Datei-Meta-Daten konsistent sind. Eine Moment- 
aufhahmen-Tabelle enthalt Information daruber, ob jeder Block innerhalb 
der Datenbank zugeordnet ist oder nicht. AuBerdem zeigt die Momentauf- 
nahmen-Tabelle an, ob jeder Block protokolliert ist oder nicht. Samtliche 



Meta-Daten-Aktualisierangen werden in einem Protokoll-„Behalter" auf- 
gezeichnet, der das Transaktions-Protokoll des Aggregate speichert. Das 
Protokoll wird als Kreispuffer von Platten-Blocken verarbeitet. Die Tran- 
saktions-Protokollierung von Episode verwendet Protokolliermethoden, 
die ursprunglich fur Datenbanken mit dem Zweck entwickelt wurden, Da- 
teisystem-Konsistenz zu garantieren. Diese Methode macht sorgfaltigen 
Gebrauch von Schreibbefehlen sowie einem Wiederherstellungsprogramm, 
die von Datenbankmethoden innerhalb des Wiederherstellungsprogramms 
unterstutzt werden. 

Andere zum Stand der Technik zahlende Systeme enthalten JFS von IBM 
und VxFS von Veritas Corporation und machen Gebrauch von unter- 
schiedlichen Formen der Transaktions-Protokollierung, um den Wieder- 
herstellungsprozeB zu beschleunigen, allerdings erfordern sie immer noch 
einen WiederherstellungsprozeB. 

Ein weiteres bekanntes Verfahren wird als Methode des „geordneten 
Schreibens" bezeichnet. Es schreibt samtliche Platten-Blocke in sorgfaltig 
festgelegter Reihenfolge, so daB Schaden minimiert wird, wenn es zu ei- 
nem Systemausfall kommt, wahrend eine Reihe von zueinander in Bezie- 
hung stehender Schreibvorgange durchgefuhrt wird. Dieser Stand der 
Technik versucht sicherzustellen, daB moglicherweise auftretende Inkonsi- 
stenzen harmlos sind. Beispielsweise werden einige wenige ungenutzte 
Blocke oder Inoden als zugeordnet markiert. Der Hauptnachteil dieser Me- 
thode besteht darin, daB die dadurch der Plattenordnung auferlegten Re- 
striktionen eine hohe Leistungsfahigkeit kaum zulassen. 

Ein weiteres bekanntes System ist eine Weiterentwicklung des zweiten 
bekannten Verfahrens, bezeichnet als Methode des „geordneten Schreibens 
mit Wiederherstellung". Bei diesem Verfahren konnen Inkonsistenzen 
moglicherweise schadlich sein. Allerdings ist die Reihenfolge von 
Schreibvorgangen derart beschrankt, daB sich Inkonsistenzen auffinden 
und mit Hilfe eines Wiederherstellungsprogramms fixieren lassen. Beispie- 
le fur dieses Verfahren umfassen das urspriingliche UNDC-Dateisystem 
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sowie das Berkeley Fast File System (FFS). Diese Methode verringert die 
Platten-Reihenfolge ausreichend, um die LeistungseinbuBe der Platten- 
Auftragserteilung zu beseitigen. Ein weiterer Nachteil besteht darin, daB 
der WiederherstellungsprozeB zeitraubend ist. Typischerweise ist er pro- 
5 portional zur GroBe des Dateisystems. Die Wiederherstellung eines 5 GB 
umfassenden FFS-Dateisystems erfordert daher beispielsweise zur Durch- 
fuhrung eine Stunde oder mehr. 

Dateisvstem-KIone 

10 

Figur 1 ist ein den Stand der Technik zeigendes Diagramm fur das Episo- 
de-Dateisystem und veranschaulicht den Einsatz von Kopieren-Nach- 
Schreiben-Methoden (COW-Methoden), um einen Dateimengen-Klon zu 
erzeugen. Eine Anode 110 enthalt einen ersten Zeiger (Pointer) 1 10A mit 

15 einem gesetzten COW-Bit. Der Zeiger 11 OA referenziert den Datenblock 
114 direkt. Die Anode 110 enthalt einen zweiten Zeiger HOB, dessen 
COW-Bit geloscht ist. Der Zeiger 1 10B der Anode referenziert den Block 
112 indirekt Der indirekte Block 112 enthalt einen Zeiger 112A, der den 
Datenblock 124 direkt referenziert- Das COW-Bit des Zeigers 112A ist 

20 gesetzt. Der indirekte Block 112 enthalt einen zweiten Zeiger 112B, der 
den Datenblock 126 referenziert. Das COW-Bit des Zeigers 112B ist ge- 
loscht. 

Eine Klon- Anode 120 enthalt einen ersten Zeiger 120A, der auf den Da- 
25 tenblock 1 14 zeigt. Das COW-Bit des Zeigers 120 A ist geloscht. Der zwei- 
te Zeiger 120B der Klon- Anode 120 referenziert den indirekten Block 122. 
Das COW-Bit des Zeigers 120B ist geloscht. Der indirekte Block 122 ent- 
halt einen Zeiger 122 A, der den Datenblock 124 referenziert. Das COW- 
Bit des Zeigers 122 A ist geloscht. 

30 

Wie in Figur 1 gezeigt ist, enthalt jeder direkte Zeiger 1 10A, 1 12A-1 12B, 
120A und 122 A und jeder indirekte Zeiger 1 10B und 120B in dem Episo- 
de-Dateisystem ein COW-Bit. Blocke, die nicht modifiziert wurden, sind 
sowohl im aktiven Dateisystem als auch in dem Klon enthalten, und bei 



ihnen sind die COW-Bits gesetzt (1). Das COW-Bit ist geloscht (0), wenn 
ein von dem Zeiger referenzierter Block modifiziert wurde und damit Teil 
des aktiven Dateisystems ist, nicht jedoch Teil des Klpns. 

Wird einKopieren-Nach-Schreiben-Block modifiziert, so wird gemaB Fi- 
gur 1 ein neuer Block zugeordnet und aktualisiert. Das COW-Flag in dem 
Zeiger auf diesen neuen Block wird dann gesetzt. Das COW-Bit des Zei- 
gers 110A der ursprunglichen Anode 110 wird geloscht. Wenn also die 
Klon-Anode 120 erzeugt wird, referenziert die Klon-Anode 120 auch den 
Datenblock 114. Sowohl die Original-Anode 110 als auch die Klon-Anode 
120 referenzieren den Datenblock 114. Auch der Datenblock 124 wurde 
modifiziert, angedeutet durch ein geloschtes COW-Bit des Zeigers 1 12A in 
dem ursprunglichen indirekten Block 1 12. Wenn folglich die Klon-Anode 
erzeugt wird, wird der indirekte Block 122 erzeugt. Der Zeiger 122A des 
; indirekten Blocks 122 referenziert den Datenblock 124, und das COW-Bit 
des Zeigers 122A ist geloscht. Sowohl der indirekte Block 122 der Origi- 
nal-Anode 110 als auch der indirekte Block 122 der Klon-Anode 120 refe- 
renzieren den Datenblock 124. 

0 Figur 1 zeigt das Kopieren einer Anode zum Erzeugen einer Klon-Anode 
120 fur eine einzelne Datei. Allerdings mussen Klon-Anoden fur jede Da- 
tei erzeugt werden, die geanderte Datenblocke in dem Dateisystem enthalt. 
Zur Zeit des Klonens mussen samtliche Inoden kopiert werden. Das Er- 
zeugen von Klon-Anoden fur jede modifizierte Datei innerhalb des Datei- 

>5 systems kann signifikante Mengen an Plattenspeicherplatz verbrauchen. 
AuBerdem ist Episode nicht in der Lage, Mehrfach-Klone zu handhaben, 
da jeder Zeiger lediglich ein einziges COW-Bit aufweist. Ein einzelnes 
COW-Bit ist nicht in der Lage, mehr als einen Klon zu untersche^en. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 

30 den konnte. 

Ein Dateisatz „Klon» ist eine ausschlieBlich lesbare Kopie eines aktiven 
Dateisatzes, wohingegen der aktive Dateisatz selbst sowohl lesbar als auch 
beschreibbar ist. Klone werden unter Verwendung von COW-Methoden 



implementiert und nutzen gemeinsam Datenblocke mit einem aktiven Da- 
teisatz auf Block-Fur-Block-Basis. Episode implementiert das Klonen da- 
durch, daB jede in einem Dateisatz gespeicherte Anode kopiert wird. Nach 
dem anfanglichen Klonen zeigen sowohl die beschreibbare Anode des ak- 
5 tiven Dateisatzes als auch die geklonte Anode auf denselben Datenblock 
oder dieselben Datenblocke. Allerdings sind Plattenadressen fur direkte 
und indirekte Blocke innerhalb der Original-Anode als COW gekenn- 
zeichnet. Deshalb hat eine Aktualisierung des beschreibbaren Dateisatzes 
keinen Einflufi auf den Klon. Wird ein COW-Block modifiziert, so wird 

10 ein neuer Block in dem Dateisystem zugewiesen und mit der Modifizie- 
rung aktualisiert. Das COW-Flag in dem Zeiger dieses neuen Blocks wird 
geloscht. Das bekannte Episode-System erzeugt Klone, die die gesamte 
Inoden-Datei sowie samtliche indirekten Blocke innerhalb des Dateisy- 
stems duplizieren. Episode dupliziert samtliche Inoden mid indirekten 

15 Blocke derart, daB es ein Kopieren-Nach-Schreiben-(COW-)Bit in samtli- 
chen Zeigern auf Blocke setzen kann, die sowohl von dem aktiven Datei- 
system als auch von dem Klon benutzt werden. Bei Episode ist es wichtig, 
diese Blocke zu kennzeichnen, so daB neue, in das aktive Dateisystem ein- 
geschriebene Daten die alten Daten, welche Teil des Klons sind, und die 

20 deshalb nicht geandert werden diirfen, nicht iiberschreiben. 

Das Erzeugen eines Klons im Stand der Technik kann bis zu 32 MB auf 
eine 1-GB-Platte verbrauchen. Der Stand der Technik verwendet 256 MB 
Plattenspeicherraum auf einer 1-GB-Platte (fur 4-KB-Blocke), urn acht 

25 Klone des Dateisystems zu halten. Damit kann der Stand der Technik kei- 
ne groBen Anzahlen von Klonen zum Verhindern von Datenverlusten ver- 
wenden. Statt dessen erleichterte er ublicherweise das Sichem des Dateisy- 
stems auf eine Hilfsspeichereinrichtung, verschieden von dem Plattenlauf- 
werk, so zum Beispiel ein Band-Sicherungsgerat. Klone werden zum Si- 

30 chem eines Dateisystems in einem konsistenten Zustand in dem Zeitpunkt 
verwendet, zu dem der Klon hergestellt wird. Durch Klonen des Dateisy- 
stems kann der Klon zur Sicherheit auf das Hilfsspeichersystem gebracht 
werden, ohne daB dabei das aktive Dateisystem abgeschaltet wird, wo- 
durch Benutzer an einer Benutzung des Dateisystems gehindert wurden. 




Damit ermoglichen es Klone den Benutzern, weiterhin auf ein aktives Da- 
teisystem zuzugreifen, wahrend das Dateisystem selbst in einem konsisten- 
ten Zustand gesichert wird. AnschlieBend wird der Klon geloscht, nachdem 
die Sicherung abgeschlossen ist. Episode ist nicht in der Lage, mehrere 
5 Klone zu fuhren, da jeder Zeiger nur ein COW-Bit enthalt. Ein einzelnes 
COW-Bit ist nicht im Stande, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 
den konnte. 

10 Ein Nachteil des bekannten Systems zum Erzeugen von Dateisystem- 
Klonen besteht darin, daB das System samtliche Inoden und samtliche indi- 
rekten Blocke innerhalb des Dateisystems dupliziert. Bei einem System 
mit zahlreichen kleinen Dateien konnen die Inoden allein einen signifikan- 
ten Prozentsatz des gesamten Plattenspeicherraums eines Dateisystems 

15 belegen. In einem 1-GB-Dateisystem zum Beispiel, welches mit 4-KB- 
Dateien geftillt ist, gibt es 32 MB Inoden. Das Erzeugen eines Episode- 
Klons verbraucht also einen signifikanten Anteil des Plattenspeicherraums 
und erzeugt groBe Mengen (das heifit zahlreiche Megabytes) an Platten- 
verkehr. Als Ergebnis dieser Zustande nimmt das Erzeugen eines Klons 

20 eines Dateisystems einen betrachtlichen Zeitraum bis zur Vervollstandi- 
gung in Anspruch. 

Ein weiterer Nachteil des bekannten Systems besteht darin, daB das System 
die Erzeugung mehrerer Klone desselben Dateisystems schwierig macht. 
25 Im Ergebnis neigen die Klone dazu, einzeln fur Kurzzeitoperationen ver- 
wendet zu werden, so zum Beispiel zum Sichern des Dateisystems auf 
Band, urn dann geloscht zu werden. 

Die in den geanderten Anspruchen definierte Erfindung schafft ein Verfah- 
30 ren zum Halten eines Dateisystems in einem konsistenten Zustand sowie 
zum Erzeugen von ausschlieBlich lesbaren Kopien eines Dateisystems. 
Anderungen des Dateisystems werden streng gesteuert, urn das Dateisy- 
stem in einem konsistenten Zustand zu halten. Das Dateisystem schreitet 
von einem selbst-konsistenten Zustand zu einem weiteren selbst- 



konsistenten Zustand weiter. Die Menge an selbst-konsistenten Blocken 
auf einer Platte, die durch die Haupt-Inode beherrscht wird, wird als Kon- 
sistenzpunkt (CP) bezeichnet. Zum Implementieren von Konsistenzpunk- 
ten schreibt WAFL stets neue Daten in nicht-zugewiesene Blocke auf der 
Platte. Es uberschreibt niemals existierende Daten. Ein neuer Konsistenz- 
punkt tritt auf, wenn der Finsfo-BIock dadurch aktualisiert wird, daB eine 
neue Haupt-Inode fur die Inodendatei in ihn eingeschrieben wird. Solange 
die Haupt-Inode nicht aktualisiert wird, andert sich also der Zustand des 
Dateisystems auf der Platte nicht. 

Die vorliegende Erfindung schafft aufierdem Schnappschiisse, bei denen es 
sich um virtuelle, ausschlieBlich lesbare Kopien des Dateisystems handelt. 
Ein SchnappschuB nimmt keinen Plattenspeicherplatz in Anspruch, wenn 
er am Anfang erzeugt wird. Er ist derart ausgestaltet, daB zahlreiche ver- 
schiedene Schnappschiisse fur ein und dasselbe Dateisystem erzeugt wer- 
den konnen. Im Gegensatz zu herkommlichen Dateisystemen, die einen 
Klon durch Duplizieren des gesamten Inoden-Dateisatzes und samtlicher 
indirekter Blocke duplizieren, dupliziert die vorliegende Erfindung nur 
diejenige Inode, die die Inodendatei beschreibt. Der also tatsachlich beno- 
tigte Plattenspeicherplatz ftir eine Momentaufhahme betragt lediglich 128 
Bytes, die zum Speichem der duplizierten Inode verwendet werden. Die 
128 Bytes, die erfindungsgemaB fiir eine Momentaufoahme oder einen 
SchnappschuB benotigt werden, sind deutlich weniger als die zahlreichen 
Megabytes, die fur einen Klon im Stand der Technik benotigt werden. 

Die vorliegende Erfindung verhindert, daB neue Daten, die in das aktive 
Dateisystem geschrieben werden, „alte" Daten, die Teil eines oder mehre- 
rer Schnappschiisse sind, uberschreiben. Notwendig ist, daB alte Daten 
solange nicht iiberschrieben werden, wie sie Teil eines Schnappschusses 
sind. Erreicht wird dies durch Verwendung einer freien Mehrfachbit- 
Blockabbildung. Die meisten zum Stand der Technik gehorigen Dateisy- 
steme verwenden eine freie Blockabbildung mit einem einzelnen Bit pro 
Block, um anzugeben, ob ein Block zugewiesen ist oder nicht. Die vorlie- 
gende Erfindung verwendet eine Blockabbildung mit 32-Bit-Eintragen. Ein 



erstes Bit gibt an, ob ein Block von dem aktiven Dateisystem verwendet 
wird, und 20 verbleibende Bits werden fur bis zu 20 Schnappschusse ver- 
wendet, allerdings konnen einige Bits der 3 1 Bits fur andere Zwecke ver- 
wendet werden. 

5 

KURZE BESCHREIBUNG DER ZEICHNUNGEN 

Figur 1 ist ein Blockdiagramm eines zum Stand der Technik zahlenden 
„Klons" eines Dateisystems. 

10 

Figur 2 ist ein Diagramm, welches eine Liste von Inoden mit unsauberen 
Puffern veranschaulicht. 

Figur 3 ist ein Diagramm, das eine platteninterne Inode des WAFL dar- 
15 stellt. 

Figuren 4A-4D sind Diagramme, die platteninterne Inoden von WAFL mit 
unterschiedlichen Umwege-Ebenen veranschaulichen. 

20 Figur 5 ist ein FluBdiagramm des Verfahrens zum Erzeugen eines Konsi- 
stenzpunkts. 

Figur 6 ist ein FluBdiagramm zur Veranschaulichung des Schritts 530 aus 
Figur 5 zum Erzeugen eines Konsistenzpunkts. 

25 

Figur 7 ist ein FluBdiagramm zum Veranschaulichen des Schritts 530 in 
Figur 5 zum Erzeugen eines Schnappschusses. 

Figur 8 ist ein Diagramm zum Veranschaulichen einer Intern-Inode des 
30 WAFL gemaB der Erfindung. 

Figur 9A-9D sind Diagramme, die Intem-Inoden des WAFL mit unter- 
schiedlichen Umwege-Ebenen gemaB der Erfindung darstellen. 




Figur 10 ist ein Diagramm zum Veranschaulichen einer Intern-Inode 1020 
fur eine Datei. 

Figuren 11A-11D sind Diagramme zum Veranschaulichen einer Blockab- 
bilddatei (blkmap) gemaB der Erfindung. 

Figur 12 ist ein Diagramm zum Veranschaulichen einer erfindungsgema- 
Ben Inoden-Datei. 

Figuren 13A-13B sind Diagramme zum Veranschaulichen einer Inodenab- 
bild-Datei (inomap) gemaB der Erfindung. 

Figur 14 ist ein Diagramm zum Veranschaulichen eines erfindungsgema- 
Ben Verzeichnisses. 

Figur 15 ist ein Diagramm zum Veranschaulichen einer Dateisysteminfor- 
mationsstruktur (fsinfo). 

Figur 16 ist ein Diagramm zum Veranschaulichen des WAFL- 
Dateisystems. 

Figuren 17A-17L sind Diagramme zum Veranschaulichen des Erzeugens 
eines Konsistenzpunkts. 

Figuren 18A-18C sind Diagramme zum Veranschaulichen des Erzeugens 
eines Schnappschusses. 

Figur 19 ist ein Diagramm zum Veranschaulichen von Anderungen einer 
Inodendatei. 

Figur 20 ist ein Diagramm zum Veranschaulichen von fsinfo-Blocken, die 
zum Halten eines Dateisystems in einem konsistenten Zustand verwendet 
werden. 



• # 

Figuren 21A-21F sind detaillierte Diagramme zum Veranschaulichen des 
Erzeugens eines Schnappschusses. 

Figur 22 ist ein Diagramm zum Veranschaulichen eines aktiven WAFL- 
Dateisystems mit drei Schnappschussen, die jeweils eine gemeinsame Da- 
tei referenzieren; und 

Figuren 23A-23B sind Diagramme zum Veranschaulichen der Aktualisie- 
rung einer Zugriffszeit. 

DFTAILLIERTE BESCHRF-TRT ING DER ERFINDUNG 

Beschrieben wird ein System zum Erzeugen von ausschlieBlich lesbaren 
Kopien eines Dateisystems (einer Datenbank). In der folgenden Beschrei- 
bung werden zahlreiche spezifische Einzelheiten, so zum Beispiel Anzahl 
und Beschaffenheit von Platten, Plattenblock-GroBen etc. im einzelnen 
beschrieben, urn eine ausfuhrlichere Beschreibung der Erfindung anzubie- 
ten. Es ist jedoch fur den Fachmann ersichtlich, daB die Erfindung auch 
ohne diese spezifischen Einzelheiten ausgefuhrt werden kann. Andererseits 
wurden bekannte Merkmale nicht im einzelnen beschrieben, um die Erfin- 
dung nicht in unnotiger Weise zu verundeutlichen. 

WRTTE-ANYWHERE-DATETSYSTEM -LAYOUT 

Die vorliegende Erfindung macht Gebrauch von einem Write-Anywhere- 
Dateisystem-Layout (WAFL von Write Anywhere File-system Layout), 
also von einer Dateisystem-Konfiguration, die ein Aufzeichnen oder 
Schreiben an beliebiger Stelle ermSglicht. Das Plattenformatsystem beruht 
auf Blocken (das heiBt 4 KB Blocken, die keine Fragmente besitzen), ver- 
wendet Inoden zum Beschreiben seiner Dateien, und enthalt Verzeichnisse, 
die einfach speziell formatierte Dateien sind. WAFL verwendet Dateien 
zum Speichem von Meta-Daten, welche das Layout des Dateisystems be- 
schreiben. Die WAFL-Meta-Dateien beinhalten: eine Inodendatei, eine 
Blockabbild-Datei (blkmap) und eine Inodenabbilddatei (inomap). Die 
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Inodendatei enthalt die Inodentabelle fur das Dateisystem. Die blkmap- 
Datei gibt an, welche Platten-Blocke zugeordnet sind. Die inomap-Datei 
gibt an, welche Inoden zugeordnet sind. Weiter unten werden Unterschei- 
dungsmerkmale fur platteninterne und WAFL-inteme Inoden diskutiert 

Platteninterne WAFL-Inoden 

WAFL-Inoden unterscheiden sich von herkommlichen Inoden. Jede 
WAPL-Inode verweist auf 16 Blocke mit gleicher Umwegeebene. Eine 
Blocknummer ist 4 Bytes lang. Die Venvendung von Blocknummern mit 
gleicher Umwegeebene in einer Diode erleichtert die rekursive Verarbei- 
tung einer Datei. Figur 3 ist ein Blockdiagramm, das eine platteninterne 
Inode 310 veranschaulicht. Die platteninterne Inode 310 besteht aus Stan- 
dard-Inodeninformation 31 OA sowie 16 Blocknummern-Eintragen 31 OB 
gleicher Umwegeebene. Die Inodeninformation 31 OA umfaBt Information 
fiber den Inhaber einer Datei, Berechtigungen, DateigroBe, Zugriffszeit, 
etc., wie dies dem Fachmann alles bekannt ist. Im Gegensatz zu bekannten 
Inoden, die eine Mehrzahl von Blocknummern imterschiedlicher Umwe- 
geebenen aufweisen, ist die platteninterne Inode 310 anders. Durch Halten 
samtlicher Blocknummerneintrage 31 OB innerhalb einer Inode 310 auf 
gleicher Umwegeebene wird die Implementierung des Dateisystems ver- 
einfacht. 

Fur eine kleine Datei mit einer GroBe von 64 Bytes oder weniger werden 
Daten direkt in der Inode selbst anstatt in Form von 16 Blocknummern 
gespeichert. Figur 4A ist ein Diagramm, das eine Inode 410 der Ebene 0 
veranschaulicht, die der in Figur 3 gezeigten Inode 310 ahnelt. Allerdings 
enthalt die Inode 410 64 Bytes Daten 41 0B anstelle von 16 Blocknummern 
31 0B. Deshalb brauchen Plattenblocke bei sehr kleinen Dateien nicht zu- 
gewiesen zu werden. 

Fur eine Datei mit einer GroBe von weniger als 64 KB nimmt jede der 16 
Blocknummern direkt auf einen 4-KB-Datenblock Bezug. Figur 4B ist ein 
Diagramm, welches eine Inode 310 der Ebene 1 mit 16 Blocknummern 



31 OB veranschaulicht. Die Blocknummemeintrage 0-15 verweisen 
entsprechende 4-KB-Datenbl5cke 420A-420C. 



Fiir eine Datei mit einer GroBe, die gleich oder groBer ist als 64 KB und 
kleiner als 64 MB ist, nimmt jede der 16 Blocknummem Bezug auf einen 
einfach-indirekten Block. Seinerseits enthalt jeder einzeln indirekte 4-KB- 
Block 1024 Blocknummem, die 4 KB-Datenblocke referenzieren. Figur 
4C ist ein Diagramm, welches eine Inode der Ebene 4, 310, veranschau- 
licht, welche 16 Blocknummem 310B enthalt, die 16 einfach-indirekte 
Blocke 430A-430C referenzieren. Wie in Figur 4C gezeigt ist, zeigt der 
Blocknummemeintrag 0 auf einen einfach-indirekten Block 430A. Der 
einfach-indirekte Block 430A enthalt 1024 Blocknummem, die auf 4-KB- 
Datenblocke 440A-440C Bezug nehmen. In ahnlicher Weise kann jeder 
einfach-indirekte Block 430B-430C jeweils bis zu 1024 Datenblocke 
adressieren. 

Bei einer DateigroBe von mehr als 64 MB referenzieren die 16 Block- 
nummem der Inode doppelt-indirekte Blocke. Jeder doppelt-indirekte 4- 
KB-Block enthalt 1024 Blocknummem, die auf entsprechende einfach- 
indirekte Blocke verweisen. Jeder einfach-indirekte Block wiederum ent- 
halt 1024 Blocknummem, die auf 4-KB-Datenblocke zeigen. Auf diese 
Weise lassen sich bis zu 64 GB adressieren. Figur 4D ist ein Diagramm 
einer Inode 310 der Ebene 3, die 16 Blocknummem 310B enthalt, wobei 
Blocknummemeintrage 0, 1 und 15 auf doppelt-indirekte Blocke 470A, 
470B und 470C verweisen. Der doppelt-indirekte Block 470A enthalt 1024 
Blocknummemeintrage 0-1023, die auf 1024 einfach-indirekte Blocke 
480A-480B zeigen. Jeder einfach-indirekte Block 480A-480B wiederum 
referenziert 1024 Datenblocke. Wie in Figur 4D gezeigt ist, referenziert 
der einfach-indirekte Block 480A 1024 Datenblocke 490A-490C, und der 
einfach-indirekte Block 480B nimmt Bezug auf 1024 Datenblocke 490C- 
490F. 




WAFL-interne Inoden 

Figur 8 ist ein Blockdiagramm, das eine WAFL-interne Inode 820 veran- 
schaulicht. Die interne Inode 820 enthalt die Information der platteninter- 
nen Inode 310 (dargestellt in Figur 3), eine WAFL-Puffer-Datenstniktur 
820A, auBerdem 16 Pufferzeiger 820B. Eine WAFL-interne Inode besitzt 
eine GroBe von 300 Bytes. Ein WAFL-Puffer ist ein 4 KB umfassendes 
(speicher-)internes Aquivalent der 4-KB-Blocke, die auf der Platte gespei- 
chert sind. Die Intern-Inode 820 unterscheidet sich von herkommlichen 
Inoden, welche Puffer mit unterschiedlichen Umwegeebenen referenzie- 
ren. Jede Intern- WAFL-Inode 820 zeigt auf 16 Puffer mit gleicher Umwe- 
geebene. Ein Pufferzeiger hat eine Lange von 4 Bytes. Indem man samtli- 
che Pufferzeiger 820B in eine Inode 820 auf der gleichen Umwegeebene 
halt, vereinfacht man die Dateisystem-Implementierung. Die Intern-Inode 
820 enthalt auBerdem Intern-Information 820C, umfassend ein „Unsau- 
ber"-Flag, ein Inkonsistenzpunkt-Flag (IN_CP) sowie Zeiger fur eine Ver- 
kniipfungsliste. Das Unsauber-Flag gibt an, daB die Inode selbst modifi- 
ziert wurde oder daB sie Puffer referenziert, welche ihrerseits geandert 
wurden. Das IN_CP-Flag dient zum Markieren einer Inode als in einem 
Konsistenzpunkt befindlich (wird unten beschrieben). Die Zeiger fur eine 
verknupfte Liste werden unten beschrieben. 

Figur 10 ist ein Diagramm, welches eine Datei veranschaulicht, die durch 
eine WAFL-Inode 1010 referenziert wird. Die Datei enthalt indirekte 
WAFL-Puffer 1020-1024 und direkte WAFL-Puffer 1030-1034: die 
WAFL-Intern-Inode 1010 enthalt Standard-Inoden-Information 101 OA 
(einschliefilich eines Zahlers fur unsaubere Puffer), eine WAFL- 
Pufferdatenstruktur 101 0B, 16 Pufferzeiger 1010C und eine standardmaBi- 
ge platteninterne Inode 1010D. Die interne WAFL-Inode 1010 hat eine 
GroBe von etwa 300 Bytes. Die platteninterne Inode hat eine GroBe von 
128 Bytes. Die WAFL-Pufferdatenstruktur 101 0B umfaBt zwei Zeiger, von 
denen der erste die 16 Pufferzeiger 10 10C und der zweite platteninterne 
Blocknummern 1 0 1 0D referenziert. 
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Jede Inode 1010 besitzt eine Zahlung von unsauberen Puffem, auf die sie 
Bezug nimmt. Eine Inode 1010 kann in die Liste unsauberer Inoden 
und/oder die Liste von Inoden eingegeben werden, welche unsaubere Puf- 
fer aufweisen. Wenn samtliche von einer Inode referenzierten unsauberen 
Puffer fur die Aufzeichnung auf Platte vorgesehen sind oder auf Platte auf- 
gezeichnet werden, wird die Zahlung der unsauberen Puffer fur Inode 1010 
auf Null gesetzt. Die Inode 1010 wird dann entsprechend ihrem Flag neu in 
Warteschlange gestellt (das heiBt in diesem Fall gibt es keine unsauberen 
Puffer). Diese Inode 1010 wird geloscht, bevor die nachste Inode verarbei- 
tet wird. AuBerdem wird das Flag der Inode geloscht, welches angibt, daB 
die Inode sich in einem Konsistenzpunkt befmdet. Die Inode 1010 selbst 
wird in einem Konsistenzpunkt auf Platte geschrieben. 

Die WAFL-Pufferstruktur ist dargestellt durch einen indirekten WAFL- 
Puffer 1020. Der WAFL-Puffer 1020 enthalt eine WAFL- 
Pufferdatenstruktur 1020A, einen 4-KB-Puffer 1020B mit 1024 WAFL- 
Pufferzeigem und einen 4-KB-Puffer 1020C mit 1024 platteninternen 
Blocknummem. Die WAFL-Pufferdatenstruktur hat eine GroBe von 56 
Bytes und enthalt zwei Zeiger. Ein Zeiger der WAFL-Pufferdatenstruktur 
1020A referenziert den 4-KB-Puffer 1020B, und ein zweiter Zeiger refe- 
renziert den Puffer 1020C. In Figur 10 zeigen die 16 Pufferzeiger 1010C 
der WAFL-Inode 1010 auf die 16 einfach-indirekten WAFL-Puffer 1020- 
1024. Der WAFL-Puffer 1020 wiederum referenziert 1024 direkte WAFL- 
Pufferstrukturen 1030-1034. Der WAFL-Puffer 1030 steht reprasentativ 
fur direkte WAFL-Puffer. 

Der direkte WAFL-Puffer 1030 enthalt eine WAFL-Pufferdatenstruktur 
1030A und einen 4-KB-Direktpuffer 1030B, der eine gecachete Version 
eines entsprechenden platteninternen 4-KB-Datenblocks enthalt. Der direk- 
te WAFL-Puffer 1030 enthalt nicht einen 4-KB-Puffer wie den Puffer 
1020C des Indirekt-WAFL-Puffers 1020. Der zweite Pufferzeiger der 
WAFL-Pufferdatenstruktur 1030A wird auf Null gesetzt und zeigt daher 
nicht auf einen zweiten 4-KB-Puffer. Dies verhindert eine nicht effiziente 



Venvendung von Speicher, da ansonsten Speicherbereich fur einen unbe- 
nutzten Puffer bereitgestellt wiirde. 

In einem WAFL-Dateisystem, wie es in Figur 10 gezeigt ist, referenziert 
eine interne WAFL-Inodenstruktur 1010 einen Baum von WAFL- 
Pufferstrukturen 1020-1024 und 1030-1034. Dieser ahnelt einem Baum 
von platteninternen Blocken, die durch Standard-Inoden referenziert wer- 
den, welche Blocknummern aufweisen, die auf indirekte und/oder direkte 
Blocke zeigen. Damit enthalt die WAFL-Inode 1010 nicht nur die 16 Vo- 
lumen-Blocknummern enthaltende platteninterne Inode 1010D, sondern 
enthalt auBerdem 16 Pufferzeiger 10 10C, welche auf WAFL- 
Pufferstrukturen 1020-1024 und 1030-1034 zeigen. WAFL-Puffer 1030- 
1034 enthalten gecachete Inhalte von Blocken, die durch Volumen- 
Blocknummern referenziert werden. 

Die WAFL-Intern-Inode 1010 enthalt 16 Pufferzeiger 10 10C. Ihrerseits 
werden die 16 Pufferzeiger 10 10C durch eine WAFL-Pufferstruktur 1010B 
referenziert, die die Wurzel fur den Baum aus WAFL-Puffern 1020-1024 
und 1030-1034 bildet. Somit enthalt jede WAFL-Inode 1010 eine WAFL- 
Pufferstruktur 1010B, die auf die 16 Pufferzeiger 101 0C innerhalb der 
Inode 1010 zeigt. Dies erleichtert die rekursive Implementierung von Al- 
gorithmen zum Handhaben von Puffer-Baumen. Wenn die 16 Pufferzeiger 
1010C innerhalb der Inode 1010 nicht durch eine WAFL-Pufferstruktur 
1010B reprasentiert wurden, liefie sich der rekursive Algorithmus zum 
Bearbeiten des gesamten Baums von Puffern 1020-1024 und 1030-1034 
nur schwer implementieren. 

Figuren 9A-9D sind Diagramme, die Inoden mit unterschiedlichen Umwe- 
geebenen zeigen. In Figuren 9A-9D sind zur Darstellung der Indirektheit 
oder der Umwege indirekte und direkte WAFL-Puffer dargestellt. Aller- 
dings sollte gesehen werden, dafi die WAFL-Puffer in Figur 9 entspre- 
chende indirekte oder direkte Puffer aus Figur 10 reprasentieren. Bei einer 
kleinen Datei mit einer GroBe von 64 Bytes oder weniger werden Daten 
direkt in der Inode selbst gespeichert, und nicht die 16 Pufferzeiger. Figur 



9A ist ein Diagramm, das eine Inode 820 der Ebene Null veranschaulicht, 
bei der es sich um die gleiche Inode handelt wie die Inode 820 in Figur 8, 
nur daB die Inode 820 an Stelle von 16 Pufferzeigern 820B ntmmehr 64 
Datenbytes 920B enthalt. Deshalb werden bei sehr kleinen Dateien keine 
5 zusatzlichen Puffer zugewiesen. 

Bei einer Datei mit einer GroBe von weniger als 64 KB referenziert jeder 
der 16 Pufferzeiger direkt einen direkten 4-KB-WAFL-Puffer. Figur 9B ist 
ein Diagramm einer Inode 820 der Ebene 1 mit 16 Pufferzeigern 820B. Die 
10 Pufferzeiger PTR0-PTRI5 zeigen auf entsprechende direkte 4-KB-WAFL- 
Puffer 922A-922C. 

Bei einer Datei, die groBer oder gleich 64 KB und kleiner als 64 MB ist, 
referenziert jeder der 16 Pufferzeiger einen einfach-indirekten WAFL- 

15 Puffer. Jeder einfach-indirekte 4-KB- WAFL-Puffer seinerseits umfaflt 
1024 Pufferzeiger, welche 4-KB-Direkt- WAFL-Puffer referenzieren. Figur 
9C ist ein Diagramm einer Inode 820 der Ebene 2 mit 16 Pufferzeigern 
820B, welche 16 einfach-indirekte WAFL-Puffer 930A-930C referenzie- 
ren. GemaB Figur 9C zeigt der Pufferzeiger PTR0 auf einen einfach- 

20 indirekten WAFL-Puffer 930A. Der einfach-indirekte WAFL-Puffer 930A 
enthalt 1024 Zeiger, die 4-KB-Direkt-WAFL-Puffer 940A-940C referen- 
zieren. In ahnlicher Weise konnen einfach-indirekte WAFL-Puffer 930B- 
930C jeweils bis zu 1024 direkte WAFL-Puffer adressieren. 

25 Bei einer DateigroBe von mehr als 64 MB referenzieren die 16 Pufferzei- 
ger der Inode doppelt-indirekte WAFL-Puffer. Jeder 4 KB umfassende, 
doppelt-indirekte WAFL-Puffer enthalt 1024 Zeiger, die auf zugehorige 
einfach-indirekte WAFL-Puffer zeigen. Jeder einfach-indirekte WAFL- 
Puffer seinerseits umfaBt 1024 Zeiger, die auf direkte 4 KB-WAFL-Puffer 

30 zeigen. Damit konnen bis zu 64 GB adressiert werden. Figur 9D ist ein 
Diagramm einer Inode 820 der Ebene 3 mit 16 Zeigern 820B, wobei Zei- 
ger PTR0, PTRI und PTR15 doppelt-indirekte WAFL-Puffer 970A, 970B 
bzw. 970C referenzieren. Der doppelt-indirekte WAFL-Puffer 970A ent- 
halt 1024 Zeiger, die auf 1024 einfach-indirekte WAFL-Puffer 980A-980B 



m • 

zeigen. Jeder einfach-indirekte WAFL-PufFer 980A-980B wiederam refe- 
renziert 1024 direkte WAFL-Puffer. Wie in Figur 9D zu sehen ist, referen- 
ziert der einfach-indirekte WAFL-Puffer 980A 1024 direkte WAFL-PufFer 
990A-990C, und der einfach-indirekte WAFL-Puffer 980B referenziert 
5 1 024 direkte WAFL-Puffer 990D-990F. 

Verzeichnisse 

Verzeichnisse innerhalb des WAFL-Systems sind in 4-KB-Blocken ge- 
10 speichert, welche in zwei Abschnitte aufgeteilt sind. Figur 14 ist ein Dia- 
gramm, das einen Verzeichnisblock 1410 gemaB der Erfindung veran- 
schaulicht Jeder Verzeichnisblock 1410 enthalt einen ersten Abschnitt 
1410A mit Verzeichniseintrag-Strukturen 1412-1414 fester Lange, und 
einen zweiten Abschnitt 141 OB, der die aktuellen Verzeichnisnamen 1416- 

15 1418 enthalt. Jeder Verzeichniseintrag enthalt auBerdem eine Datei-ID, das 
heiBt eine Datei-Kennung und eine Generation. Diese Information kenn- 
zeichnet, welche Datei der Eintrag referenziert. Diese Information ist im 
Stand der Technik bekannt und deshalb in Figur 14 nicht dargestellt. Jeder 
Eintrag 1412-1414 im ersten Abschnitt 141 OA des Verzeichnisblocks be- 

20 sitzt einen Zeiger auf seinen Namen innerhalb des zweiten Abschnitts 
141 OB. AuBerdem enthalt jeder Eintrag 1412-1414 einen Hash- Wert, ab- 
hangig von seinem Namen in dem zweiten Abschnitt 141 OB, so daB der 
Name nur untersucht wird, wenn es zu einem Hash-Treffer (einer Hash- 
Ubereinstimmung) kommt. Beispielsweise enthalt der Eintrag 1412 des 

25 ersten Abschnitts 141 OA einen Hash- Wert 1412A und einen Zeiger 1412B. 
Der Hash- Wert 1412A ist ein Wert, der von dem Verzeichnis-Namen 
„VERZEICHNIS_ABC" abhangt, der in dem Eintrag variabler Lange 1416 
des zweiten Abschnitts 1410B abgespeichert ist. Der Zeiger 1412B des 
Eintrags 1410 zeigt auf den Eintrag variabler Lange, 1416, des zweiten 

30 Abschnitts 141 OB. Unter Verwendung von Verzeichniseintragen fester 
Lange, 1412-1414 in dem ersten Abschnitt 1410A beschleunigt sich der 
Vorgang des Namen-Nachschauens. Zum Auffinden des nachsten Eintrags 
innerhalb eines Verzeichnisblocks 1410 ist keine Rechnung erforderlich. 
Durch Halten der Eintrage 1412-1414 in dem ersten Abschnitt 1410A auf 



einem kleinen Wert verbessert sich die Trefferrate fur Dateisysteme mit 
einem Zeilenfuller-Datencache. 



Meta-Daten 



WAFL fuhrt Information, die ein Dateisystem in Dateien beschreibt, wel- 
che als Meta-Daten bekannt sind. Meta-Daten umfassen eine Inodendatei, 
eine inomap-Datei und eine blkmap-Datei. WAFL speichert seine Meta- 
Daten in Dateien, die irgendwo auf einer Platte aufgezeichnet werden kon- 
nen. Weil samtliche WAFL-Meta-Daten in Dateien gefuhrt werden, lassen 
sie sich an eine beliebe Stelle schreiben, so wie jede andere Datei inner- 
halb der Datenbank. 

Eine erste Metadaten-Datei ist die „Inodendatei", die Inoden enthalt, wel- 
che samtliche anderen Dateien innerhalb der Datenbank beschreiben. Figur 
12 ist ein Diagramm einer Inodendatei 1210. Die Inodendatei 1210 kann 
irgendwo auf einer Platte aufgezeichnet werden, im Gegensatz zu bekann- 
ten Systemen, welche .Jnodentabellen" auf eine feste Stelle der Platte 
schreiben. Die Inodendatei 1210 enthalt eine Inode 1210A-1210F fur jede 
Datei innerhalb des Dateisystems, ausgenommen die Inodendatei 1210 
selbst. Gezeigt wird auf die Inodendatei 1210 durch eine als die „Wurzeli- 
node" bezeichnete Inode. Die Wurzelinode wird an einer festen Stelle auf 
der Platte gehalten, bezeichnet als weiter unten noch zu beschreibender 
Dateisysteminformationsblock(fsinfo-Block). Die Inodendatei 1210 selbst 
ist in 4-KB-Blocken auf der Platte (oder 4-KB-Puffem im Speicher) abge- 
speichert. Figur 12 veranschaulicht, daB Inoden 1210A-1210C in einem 4- 
KB-Puffer 1220 gespeichert sind. Fur GroBen von plattenintemen Inoden 
von 128 Bytes umfafit ein 4-KB-Puffer (oder Block) 32 Inoden. Die Intern- 
Inodendatei 1210 setzt sich zusammen aus WAFL-Puffern 1220. Wenn 
eine Intem-Inode (das heiBt 1210A) geladen wird, wird der platteninterne 
Inodenteil der Intern-Inode 1210A fur den Puffer 1220 der Inodendatei 
1210 einkopiert. Die Pufferdaten selbst werden von der Platte her geladen. 
Das Schreiben von Daten auf die Platte erfolgt in umgekehrter Reihenfol- 
ge. Die Intem-Inode 1210A, die eine Kopie der plattenintemen Inode ist, 




wird in den entsprechenden Puffer 1220 der Inodendatei 1210 kopiert. An- 
schlieBend wird die Inodendatei 1210 fur das Schreiben zugewiesen, und 
die in dem Puffer 1220 der Inodendatei 1210 gespeicherten Daten werden 
auf die Platte geschrieben. 

Eine weitere Metadaten-Datei ist die „BIockabbild"-Datei (blkmap-Datei). 
Figur 11A ist ein Diagramm, welches eine blkmap-Datei 1110 zeigt. Die 
blkmap-Datei 1110 enthalt einen 32 Bits umfassenden Eintrag 1110A- 
11 10C fur jeden 4-KB-BIock innerhalb des Plattenlaufwerksystems. Sie 
dient auBerdem als Abbilddatei fur freie Blocke. Die blkmap-Datei 1110 
gibt an, ob ein Plattenblock belegt wuxde oder nicht. Figur 1 IB ist ein Dia- 
gramm eines Blockeintrags 1110A der blkmap-Datei 1110 (dargestellt in 
Figur 11 A). Wie in Figur 11B gezeigt ist, umfaBt der Eintrag 1110A 32 
Bits (BIT0-BIT31). Bit 0 (BIT0) des Eintrags 1110A ist das Aktiv- 
Dateisystem-Bit (FS-Bit). Das FS-Bit des Eintrags 1110A gibt an, ob der 
entsprechende Block Teil des aktiven Dateisystems ist oder nicht Die Bits 
1-20 (BIT1-BIT20) des Eintrags 1 1 10A sind Bits, welche angeben, ob der 
Block Teil eines entsprechenden Schnappschusses (Zwischensicherung) 1- 
20 ist. Die nachsten oberen 10 Bits (BIT21-BIT30) sind reserviert. Bit 31 
(BIT3 1) ist das Konsistenzpunkt-Bit (CP-BIT) des Eintrags 1 1 10A. 

Ein Block ist als ein freier Block in dem Dateisystem dann verfugbar, 
wenn samtliche Bits (BIT0-BIT31) in dem 32 Bit umfassenden Eintrag 
1 1 10A fur den Block geloscht sind (auf einen Wert 0 zuruckgesetzt). Figur 
11C ist ein Diagramm, welches den Eintrag 1110A der Figur 11A veran- 
schaulicht, wenn dieser anzeigt, daB der Plattenblock frei ist. Demnach ist 
der durch den Eintrag 1110A der blkmap-Datei 1110 referenzierte Block 
dann frei, wenn die Bits 0-31 (BIT0-BIT31) samtlich einen Wert 0 haben. 
Figur 1 ID ist ein Diagramm, welches den Eintrag 1 1 10A der Figur 1 1 A in 
dem Zustand zeigt, in welchem er einen belegten Block in dem aktiven 
Dateisystem angibt. Wenn das Bit 0 (BITO), auch als FS-Bit bezeichnet, 
auf einen Wert 1 gesetzt ist, kennzeichnet der Eintrag 1 1 10A der blkmap- 
Datei 1110 einen Block, der Teil des aktiven Dateisystems ist. Bits 1-20 
(BIT1-BIT20) dienen zum Anzeigen entsprechender Schnappschusse, falls 




vorhanden, die den Block referenzieren. Schnappschusse werden unten im 
einzelnen erlautert. Wenn das Bit 0 (BITO) auf einen Wert 0 gesetzt ist, so 
zeigt dies nicht unbedingt an, daB der Block fur die Belegung zur Verfu- 
gung steht. Samtliche SchnappschuB-Bits miissen 0 sein, damit der Block 
5 zugewiesen werden kann. Bit 31 (BIT31) des Eintrags 1110A hat stets 
denselben Zustand als Bit 0 (BITO) auf der Platte, wird aber, wenn er in 
das Speicherbit 31 (BIT31) geladen wird, zur Buchfuhrung als Teil eines 
Konsistenzpunkts verwendet. 

10 Eine weitere Metadaten-Datei ist die „Inodenabbild"-Datei (inomap- 
Datei), die als ein Abbild fur freie Inoden dient. Figur 13 A ist ein Dia- 
gramm, welches eine Inodenabbild-Datei veranschaulicht. Die inomap- 
Datei 1310 enthalt einen 8 Bits umfassenden Eintrag 1310A-1310C fur 
jeden Block innerhalb der in Figur 12 gezeigten Inoden-Datei 1210. Jeder 

15 Eintrag 1310A-1310C ist eine Zahlung zugeordneter oder belegter Inoden 
in dem entsprechenden Block innerhalb der Inoden-Datei 1210, Figur 13A 
zeigt Werte 32,5 bzw. 0 in den Eintragen 1310A-1310C. Die Inoden-Datei 
1210 muB noch inspiziert werden, urn herauszufinden, welche Inoden in - 
dem Block frei sind, dies erfordert jedoch nicht das Umladen groBerer 

20 Mengen beliebiger Blocke von der Platte in den Speicher. Da jeder 4-KB- 
Block 1220 der Inodendatei 1210 32 Inoden aufhimmt, kann der 8 Bits 
umfassende inomap-Eintrag 131 OA- 13 10C fur jeden Block in der Inoden- 
Datei 1210 Werte annehmen, die zwischen 0 und 32 liegen. Wenn ein 
Block 1220 einer Inoden-Datei 1210 keine Inoden im Gebrauch hat, so ist 

25 der Eintrag 1310A-1310C fur ihn innerhalb der Inomap-Datei 1310 „0". 
Wenn samtliche Inoden in dem Block 1220 der Inodendatei 1210 im Ge- 
brauch sind, hat der Eintrag 1310A-1310C der inomap-Datei 1310 einen 
Wert 32. 



30 Figur 13B ist ein Diagramm, das eine inomap-Datei 1350 veranschaulicht, 
welche die 4-KB-Blocke 1340A-1340C der Inoden-Datei 1340 referen- 
ziert. Beispielsweise speichert die Inoden-Datei 1340 37 Inoden in drei 4- 
KB-Blocken 1340A-1340C. Blocke 1340A-1340C der Inoden-Datei 1340 
enthalten 32,5 bzw. 0 verwendete Inoden. Eintrage 1350A-1350C der 




blkmap-Datei 1350 referenzieren Blocke 1340A-1340C der Inoden-Datei 
1340. Damit haben die Eintrage 1350A-1350C der inomap-Datei Werte 
von 32,5 und 0 fur Blocke 1340A-1340C der Inoden-Datei 1340. Die Ein- 
trage 1350A-1350C der inomap-Datei wiederum kennzeichnen 0,27 bzw. 
32 freie Inoden in den Blocken 1340A-1340C der Inoden-Datei 1340. 

Bezugnehmend auf Figur 13 ist die Verwendung einer bitweisen Moment- 
aufnahme fur die Eintrage 1310A-1310C der inomap-Datei 1310 an Stelle 
von Zahlwerten deshalb von Nachteil, weil vier Bytes pro Eintrag 1310A- 
1310C fur den Block 1220 der Inoden-Datei 1210 (in Figur 12 dargestellt), 
und nicht nur ein Byte erforderlich waren. Freie Inoden im Block bzw. in 
den Blocken 1220 der Inoden-Datei 1210 mussen innerhalb der inomap- 
Datei 1310 deshalb nicht angezeigt werden, weil die Inoden selbst diese 
Information enthalten. 

Figur 15 ist ein Diagramm, welches eine Dateisysteminformationsstruktur 
(fsinfo) 1510 veranschaulicht. Die Wurzelinode 1510B eines Dateisystems 
wird an einer festen Stelle auf der Platte gehalten, so daB sie beim Booten 
des Dateisystems geortet werden kann. Der fsinfo-Block ist keine Metada- 
ten-Datei, sondern Teil des WAFL-Systems. Die Wurzelinode 1510B ist 
eine Inode, die auf die Inoden-Datei 1210 Bezug nimmt. Sie ist Teil der 
Dateisysteminformationsstruktur (fsinfo) 1510, die auBerdem Information 
1510A einschlieBlich der Anzahl von Blocken in dem Dateisystem, die 
Entstehungszeit des Dateisystems etc. enthalt. Die vermischte Information 
1510A enthalt auBerdem eine Prufsumme 15 10C (diese wird unten noch 
beschrieben). Mit Ausnahme der Wurzelinode 1510B selbst kann diese 
Information 1510A in einer Metadaten-Datei einer anderen Ausfuhrangs- 
form gehalten werden. In festen Platzen auf der Platte werden zwei identi- 
sche Kopien der fsinfo-Struktur 1510 gehalten. 

Figur 16 ist ein Diagramm, welches das WAFL-Dateisystem 1670 in ei- 
nem konsistenten Zustand auf einer Platte mit zwei fsinfo-Blocken 1610 
und 1612, einer Inoden-Datei 1620, einer blkmap-Datei 1630, einer ino- 
map-Datei 1640, einem Wurzelverzeichnis 1650 und einer typischen Datei 
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(Oder einem Verzeichnis) 1660 zeigt. Die Inoden-Datei 1620 besteht aus 
mehreren Inoden 1620A-1620D, welche andere Dateien 1630-1660 in dem 
Dateisystem 1670 referenzieren. Die Inode 1620A der Inoden-Datei 1620 
referenziert die blkmap-Datei 1630. Die Inode 1620B referenziert die ino- 
map-Datei 1640. Die Inode 1620C referenziert das Wurzelverzeichnis 
1650. Die Inode 1620D referenziert eine typische Datei (oder ein typisches 
Verzeichnis) 1660. Somit zeigt die Inoden-Datei auf samtliche Dateien 
1630-1660 innerhalb des Dateisystems 1670, ausgenommen die fsinfo- 
BlScke 1610 und 1612. Die fsinfo-Blocke 1610 und 1612 enthalten jeweils 
eine Kopie 1610B bzw. 1612B der Inode der Inoden-Datei 1620. Weil die 
Wurzelinode 1610B und 1612B der fsinfo-Blocke 1610 und 1612 die Ino- 
den-Datei 1620 beschreibt, die ihrerseits den Rest der Dateien 1630-1660 
in dem Dateisystem 1670 einschlieBlich samtlicher Metadaten-Dateien 
1630-1640 beschreibt, wird die Wurzelinode 1610B und 1612B als die 
Wurzel eines Baums von Blocken betrachtet. Das WAFL-System 1620 
verwendet diese Baumstruktur fur ibx Aktualisierungsverfahren (Konsi- 
stenzpunkt) und zum Implementieren von Schnappschfissen, die beide un- 
ten noch beschrieben werden. 

T .iste von Ip ™^" mit unsauheren Bldcken 

Interne WAFL-Inoden (das heiBt die WAFL-Inode 1010 gemaB Figur 10) 
des WAFL-Dateisystems werden in unterschiedlich verknupften Listen 
entsprechend ihrem Status gehalten. Inoden, die sich auf unsaubere Blocke 
beziehen, werden in einer in Figur 2 gezeigten Liste fur unsaubere Inoden 
gehalten. Zulassige Daten enthaltende Inoden, die nicht unsauber smd, 
werden in einer separaten Liste gehalten, und Inoden, die keine zulass.gen 
Daten aufweisen, werden in einer noch weiteren Liste gefuhrt, wie d>es im 
Stand der Technik bekannt ist. Die vorliegende Erfindung macht Gebrauch 
a von einer Liste von Inoden mit unsauberen Datenblocken, was das Auffin- 
den samtlicher Inoden erleichtert, bei denen Schreibzuweisungen erforder- 
lich sind. 
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Figur 2 ist ein Diagramm, das eine Liste 210 unsauberer Inoden gemaB der 
Erfmdung veranschaulicht. Die Liste 210 unsauberer Inoden enthalt 
WAFL-interne Inoden 220-1750. Wie in Figur 17 gezeigt ist, enthalt jede 
WAFL-inteme Inode 220-250 einen Zeiger 220A-250A, der auf eine wei- 
tere Inode in der verkniipften Liste zeigt. Beispielsweise sind WAFL- 
Inoden 220-250 im Speicher an Stellen 2048, 2152, 2878, 3448 bzw. 3712 
gespeichert. Dementsprechend enthalt der Zeiger 220A der Inode 220 die 
Adresse 2152. Sie verweist deshalb auf die WAFL-Inode 222. Die WAFL- 
Inode 222 wiederum zeigt mit Hilfe der Adresse 2878 auf die WAFL- 
Inode 230. Die WAFL-Inode 230 verweist auf die WAFL-Inode 240. Die 
WAFL-Inode 240 zeigt auf die Inode 1750. Der Zeiger 250 der WAFL- 
Inode 250 enthalt einen Null- Wert und zeigt daher nicht auf eine weitere 
Inode. Somit ist sie die letzte Inode innerhalb der Liste 210 fur unsaubere 
Inoden. Jede Inode in der Liste 210 reprasentiert eine Datei aus einem 
Baum von Puffern, wie dies in Figur 10 dargestellt ist. Mindestens einer 
der von jeder Inode 220-250 referenzierte Puffer ist ein unsauberer Puffer. 
Ein unsauberer Puffer enthalt modifizierte Daten, die auf eine neue Spei- 
cherplattenstelle in dem WAFL-System geschrieben werden mussen. 
WAFL schreibt stets unsaubere Puffer auf neue Speicherstellen der Platte. 



KONSISTENZPUNKTE 



Die WAFL-Plattenstruktur, wie sie bisher beschrieben wurde, ist statisch. 
ErfindungsgemaB werden Anderungen des Dateisystems 1670 streng ge- 
steuert, urn das Dateisystem 1670 in einem konsistenten Zustand zu halten. 
Das Dateisystem 1670 schreitet von einem selbstkonsistenten Zustand zu 
einem anderen selbstkonsistenten Zustand weiter. Die Menge (oder der 
Baum) selbstkonsistenter Blocke auf der Platte mit ihrem Ursprung in der 
Wurzelinode 1510B wird als Konsistenzpunkt (CP) referenziert. Um Kon- 
sistenzpunkte zu implementieren, schreibt WAFL stets neue Daten in 
nicht-zugewiesene Blocke auf der Platte. Es uberschreibt niemals existie- 
rende Daten. Solange also die Wurzelinode 151 0B nicht aktualisiert ist, 
andert sich der Zustand des Dateisystems 1670, wie er sich auf der Platte 
darstellt, nicht. Damit das Dateisystem 1670 aber brauchbar ist, muB es 
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gelegentlich auf neu geschriebene Daten Bezug nehmen, und deshalb muB 
dann ein neuer Konsistenzpunkt geschrieben werden. 

Bezugnehmend auf Figur 16, wird ein neuer Konsistenzpunkt dadurch ge- 
schrieben, daB zunachst samtliche Dateisystem-Bl5cke auf neue Stellen 
der Platten umgeraumt werden (einschliefilich der Blocke in Metadaten- 
Dateien, so wie die Inoden-Datei 1620, die blkmap-Datei 1630 und die 
inomap-Datei 1640). Eine neue Wurzelinode 1610B und 1612B fur das 
Dateisystem 1670 wird dann auf die Platte geschrieben. Mit diesem Ver- 
fahren zur automatischen Aktualisierung eines Dateisystems ist das plat- 
teninterne Dateisystem niemals inkonsistent. Das platteninteme Dateisy- 
stem 1670 reflektiert einen alten Konsistenzpunkt, bis die Wurzelinode 
1610B und 1612B geschrieben ist. Unmittelbar nach dem Schreiben der 
Wurzelinode 1610B und 1612B auf die Platte reflektiert das Dateisystem 
1670 einen neuen Konsistenzpunkt. Datenstrukturen des Dateisystems 
1670 konnen in beliebiger Reihenfolge aktualisiert werden, es gibt keiner- 
lei Ordnungsbeschrankungen bei plattenintemen Schreibvorgangen, aus- 
genommen das eine Erfordemis, gemaB dem samtliche BlScke in dem Da- 
teisystem 1670 auf die Platte geschrieben werden miissen, bevor die Wur- 
zelinode 1610B und 1612B aktualisiert wird. 

Urn in einen neuen Konsistenzpunkt umgewandelt werden zu konnen, muB 
die Wurzelinode 1610B und 1612B zuverlassig und elementar aktualisiert 
werden. WAFL tut dies dadurch, daB zwei identische Kopien der fsinfo- 
Struktur 1610 und 1612 gehalten werden, welche die Wurzelinode 1610B 
und 1612B enthalten. Wahrend der Aktualisierung der Wurzelinode 1610B 
und 1612B wird eine Kopie der fsinfo-Struktur 1610 auf die Platte ge- 
schrieben, anschlieBend wird die zweite Kopie der fsinfo-Struktur 1612 
geschrieben. Eine Prufsumme 1610C und 1612C in der fsinfo-Struktur 
1610 bzw. 1612 dient zum Feststellen des Auftretens eines Systemzusam- 
menbruchs, welches eine der Kopien der fsinfo-Struktur 1610 oder 1612, 
die jeweils eine Kopie der Wurzelinode enthalten, beim Schreiben auf die 
Platte verfalscht. Normalerweise sind die beiden fsinfo-Strukturen 1610 
und 1612 identisch. 




Algorithmic zum Erzeugen eines Konsistenzpunkts 

Figur 5 ist ein Diagramrn, welches das Verfahren zum Erzeugen eines 
Konsistenzpunkts veranschaulicht. Im Schritt 510 werden samtliche un- 
sauberen" Inoden (also Inoden, die auf neue, modifizierte Daten enthalten- 
de Blocke zeigen) in dem System als im Konsistenzpunkt ihrer Inhalte 
befindlich markiert, und es wird nur ihr jeweiliger Inhalt auf die Platte 
geschrieben. Nur wenn diese Schreibvorgange abgeschlossen sind, durfen 
weitere Schreibvorgange aus anderen Inoden die Platte erreichen. AuBer- 
dem konnen wahrend der Zeit, in der unsaubere Schreibvorgange stattfm- 
den, keine neuen Modifikationen an Inoden vorgenommen werden, die 
sich in dem Konsistenzpunkt befinden. 

Zusatzlich zur Einstellung des Konsistenzpunkt-Flags fur samtliche unsau- 
beren Inoden, die Teil des Konsistenzpunkts sind, wird ein globales Konsi- 
stenzpunkt-Flag gesetzt, so daC seitens eines Benutzers angeforderte Ande- 
rungen sich in streng gesteuerter Weise verhalten. Nachdem das globale 
Konsistenzpunkt-Flag gesetzt ist, werden benutzerseitig angeforderte An- 
derungen, welche in dem Konsistenzpunkt befindliche Inoden beeinflus- 
sen, nicht zugelassen, Aufierdem wird nur Inoden mit gesetztem Konsi- 
stenzpunkt-Flag Plattenspeicherplatz fur ihre unsauberen Blocke zugewie- 
sen. Folglich wird der Zustand des Dateisystems auf die Platte geraumt, 
genauso, wie dies zu Beginn des Konsistenzpunkts geschah. 

Im Schritt 520 werden regulare Dateien auf Platte geraumt. Das Raumen 
regularer Dateien umfaBt den Schritt des Zuweisens von Plattenspeicher- 
platz fur unsaubere Blocke in den regularen Dateien, aufierdem das Schrei- 
ben der entsprechenden WAFL-Puffer auf die Platte. Die Inoden selbst 
werden anschlieBend in die Inoden-Datei geraumt (kopiert). Samtliche 
Inoden, die zu beschreiben sind, befinden sich entweder in der Liste von 
Inoden mit unsauberen PufTern oder in der Liste von Inoden, die unsauber 
sind, jedoch keine unsauberen Puffer enthalten. Wenn der Schritt 520 ab- 
geschlossen ist, gibt es keine weiteren regularen Inoden in dem Konsi- 
stenzpunkt, und samtliche ankommenden E/A-Anforderungen verlaufen 




erfolgreich, es sei denn, die Anforderungen verwenden Puffer, die fur Plat- 
ten-E/A-Operationen noch gesperrt sind. 

Im Schritt 530 werden Spezialdateien auf die Platte geraumt. Das Raumen 
5 von Spezialdateien umfaBt den Schritt des Zuordnens von Plattenspeicher- 
platz fur unsaubere Blocke in den beiden Spezialdateien: die Inoden-Datei 
und die blkmap-Datei, das Aktualisieren des Konsistenzbits (CP-Bit), da- 
mit Obereinstimmung mit dem aktiven Dateisystem-Bit (FS-Bit) fur jeden 
Eintrag in der blkmap-Datei herrscht, und anschlieBendes Einschreiben der 
10 Blocke in die Platte. Die Schreibzuordnung der Inoden-Datei und der 
blkmap-Datei ist deshalb kompliziert, weil der Vorgang ihrer Schreibzu- 
weisung die Dateien selbst andert. Somit werden im Schritt 530 Schreib- 
vorgange gesperrt, wahrend diese Dateien geandert werden, um zu verhin- 
dern, daB wichtige Blocke fur Platten-E/A-Operationen gesperrt werden, 
15 bevor die Anderungen abgeschlossen sind. 

Im Schritt 530 werden auBerdem die unten noch beschriebenen Schritte 
des Erzeugens und Loschens von Schnappschussen durchgefuhrt, da dies 
der einzige zeitliche Punkt ist, zu welchem das Dateisystem - ausgenom- 
20 men den fsinfo-Block - vollstandig selbstkonsistent ist und gerade dabei 
ist, auf die Platte geschrieben zu werden. Ein SchnappschuB wird aus dem 
Dateisystem geloscht, bevor ein neuer erzeugt wird, so daB in einem 
Durchgang dieselbe SchnappschuB-Inode verwendet werden kann. 

25 Figur 6 ist ein FluBdiagramm, welches die Schritte darstellt, die der Schritt 
530 umfaBt. Schritt 530 ordnet Plattenspeicherraum fur die blkmap-Datei 
und die Inoden-Datei zu und kopiert das aktive FS-Bit in das CP-Bit fur 
jeden Eintrag der blkmap-Datei. Dies garantiert, daB der Block in der Ino- 
den-Datei, der die Inode der blkmap-Datei enthalt, unsauber ist, so daB der 

30 Schritt 620 hierfur Plattenspeicherraum zuweist. 

Im Schritt 620 wird fur samtliche unsauberen Blocke in der Inode und den 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
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enthalten den Block der Inoden-Datei, der die Inode der blkmap-Datei als 
unsauberen Block enthalt. 

Im Schritt 630 wird die Inode fur die blkmap-Datei erneut geraumt, aller- 
dings wird diesmal die aktuelle Inode in den vorab geraumten Block in der 
Inoden-Datei geschrieben. Schritt 610 hat bereits den Block der Inoden- 
Datei verfalscht, welche die Inode der blkmap-Datei enthalt. Damit 
braucht kein weiterer Schreibzuweisungsschritt entsprechend dem Schritt 
620 geplant zu werden. 

Im Schritt 640 werden die Eintrage fur jeden Block in der blkmap-Datei 
aktualisiert. Jeder Eintrag wird dadurch aktualisiert, daB das aktive FS-Bit 
in das CP-Bit kopiert wird (das heiBt Einkopieren des Bits 0 in das Bit 31), 
und zwar bei samtlichen Eintragen in unsauberen Blocken innerhalb der 
blkmap-Datei. 

Im Schritt 650 werden samtliche unsauberen Blocke in den blkmap- und 
Inoden-Dateien auf die Platte geschrieben. 

Nur fur Eintrage in unsauberen Blocken der blkmap-Datei muB das aktive 
Dateisystem-Bit (FS-Bit) im Schritt 640 in das Konsistenzpunkt-Bit (CP- 
Bit) kopiert werden. Unmittelbar nach einem Konsistenzpunkt besitzen 
samtliche blkmap-Eintrage denselben Wert sowohl fur das aktive FS-Bit 
als auch das CP-Bit. Mit fortschreitender Zeit werden einige aktive FS-Bits 
von blkmap-Datei-Eintragen fur das Dateisystem entweder geloscht oder 
gesetzt. Die Blocke der blkmap-Datei, die geanderte FS-Bits enthalten, 
werden entsprechend als unsauber markiert. Wahrend des folgenden Kon- 
sistenzpunkts brauchen saubere Blocke nicht zuriickkopiert zu werden. Die 
sauberen Blocke werden deshalb nicht kopiert, sie an dem vorhergehenden 
Konsistenzpunkt nicht unsauber waren und sich in den Blocken seitdem 
nichts geandert hat. Solange also das Dateisystem zu Beginn mit dem akti- 
ven FS-Bit und dem CP-Bit gleichen Werts in samtlichen blkmap- 
Eintragen erzeugt wurde, brauchen lediglich Eintrage bei unsauberen 
Blocken in jedem Konsistenzpunkt aktualisiert zu werden. 
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Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock (Fsinfo) aktualisiert und dann auf die Platte geraumt. Der Fsinfo- 
Block wird dadurch aktualisiert, daB in ihn fur die Inoden-Datei eine neue 
Wurzelinode eingeschrieben wird. Der Fsinfo-Block wird zweimal ge- 
schrieben. Zuerst wird er an eine Stelle und dann an eine zweite Stelle ge- 
schrieben. Die zwei Schreibvorgange werden derart ausgefuhrt, daB dann, 
wenn wahrend des einen oder des anderen Schreibvorgangs ein Systemzu- 
sammenbruch erfolgt, auf der Platte ein selbstkonsistentes Dateisystem 
vorliegt. Bei einem Systemzusammenbruch wahrend des Schreibvorgangs 
des zweiten Fsinfo-Blocks ist dann entweder der neue Konsistenzpunkt 
verfugbar, oder es ist der vorhergehende Konsistenzpunkt (auf der Platte 
vor Beginn des jungsten Konsistenzpunkts) vorhanden, wenn der erste 
Fsinfo-Block ausgefallen ist. Wenn das Dateisystem nach einem System- 
ausfall neu gestartet wird, wird die hochste Generationenzahlung fur einen 
Konsistenzpunkt in den Fsinfo-Blocken mit einem korrekten Prufsum- 
menwert verwendet. Dies wird weiter unten noch naher erlautert. 

Im Schritt 550 wird der Konsistenzpunkt abgeschlossen. Dies macht es 
erforderlich, daB jegliche unsaubere Inoden, die, weil sie nicht Teil des 
Konsistenzpunkts waren, neu in die Warteschlange gestellt werden. Samt- 
liche Dioden, die ihren Zustand wahrend des Konsistenzpunkts geandert 
haben, werden in die Konsistenzpunkt-Warteschlange (CP_WAIT) ge- 
stellt. Die CP_WAIT-Warteschlange enthalt Inoden, die sich vor AbschluB 
des Scbxitts 540 geandert haben, jedoch nach dem Schritt 510, wenn der 
Konsistenzpunkt gestartet ist. Nach AbschluB des Konsistenzpunkts wer- 
den die Inoden in der CP_WAIT-Warteschlange neu eingeordnet, entspre- 
chend der regularen Liste von Dioden mit unsauberen Puffem und der Li- 
ste von unsauberen Inoden ohne unsaubere Puffer. 

F^->»inrHniin psbeschra n1omg des Konsistenzpunkts 

Wie in den Figuren 20A-20C dargestellt ist, besitzt die vorliegende Erfin- 
dung eine Eiiizelordnungsbeschrankung. Die Einzelordnungsbeschrankung 
besagt, daB der Fsinfo-Block 1810 nur auf Platte geschrieben wird, nach- 
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dem samtliche ubrigen Blocke auf die Platte geschrieben sind. Das Schrei- 
ben des Fsinfo-BIocks 1810 ist elementar, weil ansonsten das gesamte Da- 
teisystem 1830 verloren gehen konnte. Damit erfordert das WAFL- 
Dateisystem, daB der Fsinfo-Block 1810 auf einmal geschrieben wird und 
sich nicht in einem inkonsistenten Zustand befindet. Wie in Figur 15 ge- 
zeigt ist, enthalt jeder der Fsinfo-Blocke 1810 (1510) eine Prufsumme 
15 10C und eine Generationenzahlung 1510D. 

Figur 20A veranschaulicht das Aktualisieren der Generationenzahlung 
1810D und 1870D der Fsinfo-Blocke 1810 und 1870. Jedesmal, wenn ein 
Konsistenzpunkt (oder SchnappschuB) ausgefuhrt wird, wird auch die Ge- 
nerationenzahlung des Fsinfo-BIocks aktualisiert. Figur 20A zeigt zwei 
Fsinfo-Blocke 1810 und 1870 mit Generationenzahlungen 1810D und 
1870D, die den gleichen Wert N aufweisen, was einen Konsistenzpunkt fur 
das Dateisystem angibt. Beide Fsinfo-Blocke referenzieren den vorausge- 
henden Konsistenzpunkt (das alte Dateisystem auf der Platte) 1830. Eine 
neue Version des Dateisystems existiert auf der Platte und wird als neuer 
Konsistenzpunkt 1831 referenziert. Die Generationenzahlung wird bei je- 
dem Konsistenzpunkt erhoht. 

In Figur 20B wird die Generationenzahlung 1810D des ersten Fsinfo- 
BIocks 1810 aktualisiert und erhalt einen Wert N+l. Dann wird sie auf die 
Platte geschrieben. Figur 20B veranschaulicht einen Wert N+l fur die Ge- 
nerationenzahlung 1810D des Fsinfo-BIocks 1810, wohingegen die Gene- 
rationenzahlung 1870D des zweiten Fsinfo-BIocks 1870 einen Wert von N 
hat. Der Fsinfo-Block 1810 referenziert den neuen Konsistenzpunkt 1831, 
wohingegen der Fsinfo-Block 1870 den alten Konsistenzpunkt 1830 refe- 
renziert. Als nachstes wird die Generationenzahlung 1870D des Fsinfo- 
BIocks 1 870 aktualisiert und auf Platte geschrieben, wie dies in Figur 20C 
dargestellt ist. In Figur 20C besitzt die Generationenzahlung 1870D des 
Fsinfo-BIocks 1870 einen Wert N+l. Deshalb besitzen beide Fsinfo- 
Blocke 1810 und 1870 den gleichen Generationen-Zahlerstand N+l. 
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Kommt es zu einem Systemzusammenbruch zwischen zwei Fsinfo-Block- 
Aktualisierangen, besitzt jede Kopie des Fsinfo-Blocks 1810 und 1870 
eine (in dem Diagramm nicht gezeigte) selbstkonsistente Prufsumme, je- 
doch weist eine der Generationenzahlen 1810D oder 1870D einen hoheren 
5 Wert auf. Ein Systemzusammenbruch geschieht, wenn das Dateisystem 
sich in dem in Figur 20B gezeigten Zustand befindet. In der bevorzugten 
Ausfuhrungsform der vorliegenden Erfindung gemaB Figur 20B wird die 
Generationenzahlung 1810D des Fsinfo-Blocks 1810 vor dem zweiten 
Fsinfo-Block 1870D aktualisiert. Daher ist die Generationenzahlung 

10 1810D (mit dem Wert Eins) groBer als die Generationenzahlung 1870D 
des Fsinfo-Blocks 1870. Da die Generationenzahlung des ersten Fsinfo- 
Blocks 1810 groBer ist, wird sie zur Wiederherstellung des Dateisystems 
nach einem Systemzusammenbruch ausgewahlt. Dies geschieht deshalb, 
weil der erste Fsinfo-Block 1810 mehr laufende Daten enthalt, was durch 

15 seine Generationenzahlung 1810D angegeben wird. Falls der erste Fsinfo- 
Block verfalscht wird, da bei seiner Aktualisierung das System zusam- 
menbricht, so wird die andere Kopie 1870 des Fsinfo-Blocks zur Wieder- 
herstellung des Dateisystems 1830 in konsistentem Zustand verwendet. 

20 ErfindungsgemaB ist es nicht moglich, beide Fsinfo-Blocke 1810 imd 1870 
gleichzeitig zu aktualisieren. Deshalb existiert in dem Dateisystem minde- 
stens eine gute Kopie des Fsinfo-Blocks 1810 und 1870. Dies macht es 
moglich, das Dateisystem stets in einem konsistenten Zustand wiederher- 
zustellen. 

25 

WAFL macht keine speziellen Wiederherstellungsprozeduren erforderlich. 
Dies unterscheidet es von bekannten Systemen, die von Protokollierung, 
geordneten Schreibvorgangen und streng geordneten Schreibvorgangen bei 
der Wiederherstellung Gebrauch machen. Dies deshalb, weil nur Datenver- 
30 falschung, gegen die RAID Schutz bietet, oder Software ein WAFL- 
Dateisystem verfalschen kann. Um Datenverlust bei einem Systemausfall 
zu vermeiden, kann WAFL ein nicht-fliichtiges Transaktions-Protokoll fur 
samtliche Operationen fuhren, die nach dem jungsten Konsistenzpunkt 
erfolgt sind. Dieses Protokoll ist vollig unabhangig vom WAFL- 



32 



Plattenformat und ist nur erforderlich, um zu verhindern, dafl bei einem 
Systemzusammenbruch Operationen verlorengehen. Allerdings ist es nicht 
erforderlich, die Konsistenz des Dateisystems beizubehalten. 

Erzeugen eines Konsistenzpunkts 

Wie oben beschrieben, werden Anderungen des WAFL-Dateisystems 
streng gesteuert, um das Dateisystem in einem konsistenten Zustand zu 
halten. Figuren 17A-17H veranschaulichen die Erzeugung eines Konsi- 
stenzpunkts fur ein WAFL-Dateisystem. Die Erzeugung eines Konsistenz- 
punkts wird anhand der Figuren 5 und 6 erlautert. 

In den Figuren 17A-17L sind Puffer, die nicht modifiziert wurden, ohne 
Stemchen neben sich. Deshalb enthalten Puffer die gleichen Daten wie 
entsprechende platteninterne Blocke. Damit lafit sich ein Block in den 
Speicher laden, er ist gegemiber seiner platteninternen Version jedoch un- 
verandert. Ein Puffer mit einem einzelnen Stemchen (*) daneben bedeutet 
einen unsauberen Puffer in dem Speicher (seine Daten sind modifiziert). 
Ein Puffer mit einem doppelten Stemchen (**) neben sich bedeutet einen 
unsauberen Puffer, dem Plattenspeicherplatz zugewiesen ist. SchlieBlich ist 
ein Puffer mit einem Dreifachstemchen (***) ein unsauberer Puffer, der in 
einen neuen Block auf der Platte eingeschrieben ist. Die Konvention zum 
Bezeichnen des Zustands von Puffern wird auch bei den Figuren 21A-21E 
benutzt 

Figur 17A zeigt eine Liste 2390 von Inoden mit unsauberen Puffern, um- 
fassend Inoden 2306A und 2306B. Die Inoden 2306A und 2306B referen- 
zieren Baume von Puffern, in denen mindestens ein Puffer jedes Baums 
modifiziert wurde. Zu Beginn werden Konsistenzpunkt-Flags 2391 und 
2392 der Inoden 2306A und 2306B geloscht (0). Wahrend fur das vorlie- 
gende System eine Liste 2390 von Inoden mit unsauberen Puffern darge- 
stellt ist, sollte dem Fachmann ersichtlich sein, daC andere Listen von Ino- 
den ebenfalls im Speicher existieren konnen. Beispielsweise wird in dem 
Speicher eine Liste von Dioden gefuhrt, die unsauber sind, allerdings keine 
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unsauberen Puffer haben. Diese Inoden miissen als in dem Konsistenz- 
punkt befmdlich markiert werden. Sie miissen auf die Platte geraumt wer- 
den damit auch der unsaubere Inhalt der Inoden-Datei auf die Platte ge- 
schrieben wird, selbst wenn unsaubere Inoden nicht unsaubere Blocke re- 
ferenzieren. Dies geschieht im Schritt 520 in Figur 5. 

Figur 17B ist ein Diagramm, welches ein WAFL-Dateisystem eines vor- 
hergehenden Konsistenzpunkts mit dem Fsinfo-Block 2302, der Inoden- 
Datei 2346, der blkmap-Datei 2344 sowie Dateien 2340 und 2342 umfaBt. 
Die Datei 2340 enthalt Blocke 2310-2314, die Daten X ,3" bzw. „C" 
enthalten. Die Datei 2342 enthalt Datenblocke 2316-2320 mit Daten JT, 
3« bzw ,F\ Die blkmap-Datei 2344 enthalt den Block 2324. Die Inoden- 
Datei 2346 enthalt zwei 4 KB-Bldcke 2304 und 2306. Der zweite Block 
2306 enthalt Inoden 2306A-2306C, die die Datei 2340, die Datei 2342 
bzw die blkmap-Datei 2344 referenzieren. Dies ist im Block 2306 durch 
Auflistung der Dateinummer in der Diode angezeigt. Fsinfo-Block 2302 
enthalt die Wurzelinode. Die Wurzelinode referenziert die Blocke 2304 
und 2306 der Inoden-Datei 2346. Figur 17B veranschaulicht einen Baum 
von Puffem in einem Dateisystem mit Wurzelbildung durch den Fsinfo- 
Block 2302, welcher die Wurzelinode beinhaltet. 

Figur 17C ist ein Diagramm welches zwei modifizierte Puffer fur die 
Blocke 2314 und 2322 im Speicher veranschaulicht. Das aktive Dateisy- 
stem wird so modifiziert, daB der die Daten „C« enthaltende Block 2314 

5 aus der Datei 2340 geloscht wird. AuBerdem werden die im Block 2320 
gespeicherten Daten JT zu „F-Prime" modifiziert und in einem Puffer fur 
den Plattenblock 2322 gespeichert. Es sollte gesehen werden, daB die in 
Puffem fur Plattenblocke 2314 und 2322 enthaltene modifizierte Daten zu 
dieser Zeit nur im Speicher existieren. Samtliche ubrigen Blocke in dem 

$0 aktiven Dateisystem der Figur 17C sind nicht modifiziert und deshalb nicht 
mit einem Stemchen neben ihnen markiert. Allerdings konnen eimge oder 
samtliche dieser Blocke in dem Speicher zugehorige saubere Puffer auf- 
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Figur 17D ist ein Diagramm, welches die Eintrage 2324A-2324M der 
blkmap-Datei 2344 im Speicher veranschaulicht. Eintrage 2324A-2324M 
sind in einem Puffer fur den 4-KB-Block 2324 der blkmap-Datei 2344 
enthalten. Wie zuvor beschrieben, sind das BITO und BIT3 1 das FS-BIT 
bzw. das CP-BIT. Das Konsistenzpunkt-Bit (CP-BIT) wird wahrend eines 
Konsistenzpunkts gesetzt, urn zu garantieren, daB der entsprechende Block 
nach Beginn, jedoch noch nicht erfolgtem AbschluB eines Konsistenz- 
punkts modifiziert wird. BIT1 ist das erste SchnappschuB-Bit (wird unten 
beschrieben). Blkmap-Eintrage 2324A und 2324B veranschaulichen, daB 
gemaB Figur 17B die 4-KB-Blocke 2304 und 2306 der Inoden-Datei 2346 
in dem aktiven Dateisystem (FS-BIT gleicht 1) und in dem Konsistenz- 
punkt (CP-BIT gleicht 1) sind. In ahnlicher Weise sind die iibrigen Blocke 
2310-2312 und 2316-2320 sowie 2324 in dem aktiven Dateisystem und in 
dem Konsistenzpunkt. Allerdings sind die Blocke 2308 mid 2322 sowie 
2326-2328 weder in dem aktiven Dateisystem noch in dem Konsistenz- 
punkt (was durch BITO bzw. BIT3 1 angegeben wird). Der Eintrag fur den 
geloschten Block 2314 hat einen Wert 0 im FS-BIT, was anzeigt, daB er 
aus dem aktiven Dateisystem entfernt wurde. 

Im Schritt 510 der Figur 5 werden samtliche „unsauberen" Inoden in dem 
System als im Konsistenzpunkt befindlich markiert. Unsaubere Inoden 
enthalten sowohl Inoden, die unsauber sind, als auch Inoden, welche un- 
saubere Puffer referenzieren. Figur 171 veranschaulicht eine Liste von Ino- 
den mit unsauberen Pufifern, wo die Konsistenzpunkt-Flags 2391 und 2392 
von Inoden 2306A und 2306B gesetzt (1) sind. Die Inode 2306A referen- 
ziert den Block 2314, der Daten „C" der Datei 2340 enthalt, die aus dem 
aktiven Dateisystem zu loschen ist Die Inode 2306B des Blocks 2306 der 
Inoden-Datei 2346 referenziert die Datei 2342. Der Block 2320, der die 
Daten „F" enthalt, wurde modifiziert, und es muB ein neuer Block zuge- 
wiesen werden, der die Daten „F" enthalt. Im Schritt 510 werden die un- 
sauberen Inoden 2306A und 2306B in den Puffer fur den Block 2308 ein- 
kopiert. Der Puffer fur den Block 2306 wird anschlieBend (im Schritt 530) 
auf Platte geschrieben. Dies ist in Figur 17E dargestellt. Die modifizierten 
Daten existieren nur in dem Speicher, und der Puffer 2308 ist als unsauber 




markiert. Die Inkonsistenzpunkt-Flags 2391 und 2392 der Inoden 2306A 
und 2306B werden anschliefiend geloscht (0), wie in Figur 1 7A dargestellt. 
Dies gibt die Inoden fur die Benutzung durch andere Prozesse frei. 

Im Schritt 520 werden regulare Dateien auf Platte geraumt. Damit wird 
dem Block 2322 Plattenspeicherplatz zugewiesen. Der Block 2314 der 
Datei 2340 ist zu loschen, so daB mit diesem Block nichts geschieht, bis 
spater dann der Konsistenzpunkt abgeschlossen ist. Der Block 2322 wird 
im Schritt 520 auf Platte geschrieben. Dies ist in Figur 17F dargestellt, wo 
Puffer fur die Blocke 2322 und 2314 auf Platte geschrieben wurden (mar- 
kiert durch ***). Die Zwischen-Zuordnung von Plattenspeicherraum (**) 
ist nicht dargestellt. Die Inoden 23 08 A und 2308B des Blocks 2308 der 
Inoden-Datei 2346 werden anschlieBend in die Inoden-Datei geraumt. Die 
Inode 2308A des Blocks 2308 referenziert Blocke 2310 und 2312 der Da- 
tei 2346. Die Inode 2308B referenziert Blocke 2316, 2318, 2322 fur die 
Datei 2342. Wie in Figur 17F gezeigt ist, wird Plattenspeicherplatz fur den 
Block 2308 der Inode 2346 und fiir den direkten Block 2322 der Datei 
2342 zugewiesen. Allerdings ist das Dateisystem selbst noch nicht aktuali- 
siert worden. Damit bleibt das Dateisystem in einem konsistenten Zustand. 

Im Schritt 530 wird die blkmap-Datei 2344 auf Platte geraumt. Dies ist in 
Figur 17G dargestellt, wo die blkmap-Datei 2344 durch ein Sternchen als 
unsauber gekennzeichnet ist. 

Im Schritt 610 der Figur 6 wird die Inode fur die blkmap-Datei vorab in 
die Inoden-Datei geraumt, wie in Figur 17H gezeigt. Die Inode 2308C 
wurde in den Block 230B der Inoden-Datei 2346 geraumt. Allerdings refe- 
renziert die Inode 2308C immer noch den Block 2324. Im Schritt 620 wird 
Plattenspeicherraum fur die blkmap-Datei 2344 und die Inoden-Datei 2346 
zugewiesen. Der Block 2308 wird fur die Inoden-Datei 2346 zugewiesen, 
und Block 2326 wird fur die blkmap-Datei 2344 zugewiesen. Wie oben 
beschrieben, enthalt der Block 230S der. Inoden-Datei 2346 eine vorab- 
geraumte Inode 2308C fur die blkmap-Datei 2344. Im Schritt 630 wird die 
Inode fur die blkmap-Datei 2344 in den vorgeraumten Block 2308C in der 
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Inode 2346 geschrieben. Damit wird im Schritt 620 die interne Inode 
2308C zum Referenzieren des Blocks 2324 aktualisiert und wird in den 
Puffer des Speichers kopiert, der den in den Block 2308 zu schreibenden 
Block 2306 enthalt. Dies ist in Figur 17H dargestellt, wo die Inode 2308C 
den Block 2326 referenziert. 

Im Schritt 640 werden dip Eintrage 2326A-2326L fur jeden Block 2304- 
2326 in der blkmap-Datei 2344 in Figur 17J aktualisiert. Blocke, die sich 
nach dem Beginn des Konsistenzpunkts in Figur 17B nicht geandert haben, 
besitzen in ihren Eintragen dieselben Werte. Die Eintrage werden dadurch 
aktualisiert, daB BIT0 (das FS-Bit) in das Konsistenzpunkt-Bit (BIT31) 
kopiert wird. Der Block 2306 ist nicht Teil des aktiven Dateisystems, und 
deshalb ist BIT0 gleich Null (BIT0 wurde im Schritt 620 ausgeschaltet, als 
der Block 2308 zugewiesen wurde, urn neue Daten fur diesen Teil der Ino- 
den-Datei aufzunehmen). Dies ist in Figur 17J fur den Eintrag 2326B dar- 
gestellt. In ahnlicher Weise ist im Eintrag 2326F fur den Block 2314 der 
Datei 2340 das BIT0 und das BIT31 gleich Null. Block 2320 der Datei 
2342 und Block 2324 der blkmap-Datei 2344 werden in ahnlicher Weise 
gehandhabt, wie dies fur die Eintrage 2361 bzw. 2326K gezeigt ist. Im 
Schritt 650 werden der unsaubere Block 2308 der Inoden-Datei 2346 und 
der unsaubere Block 2326 der blkmap-Datei 2344 auf Platte geschrieben. 
Dies ist in Figur 17K durch ein dreifaches Sternchen (***) neben den 
BlScken 2308 und 2326 angegeben. 

Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock 2302 auf Platte geraumt, und dies geschieht zweimal. Damit ist 
der Fsinfo-Block 2302 unsauber geworden und wird anschlieflend auf Plat- 
te geschrieben (in Figur 17L durch ein Dreifachstemchen angedeutet). In 
Figur 17L ist ein einzelner Fsinfo-Block 2302 dargestellt. Wie aus dem 
Diagramm ersichtlich ist, referenziert der Fsinfo-Block 2302 jetzt den 
Block 2304 und den Block 2308 der Inoden-Datei 2346. In Figur 17L ist 
der Block 2306 nicht mehr Bestandteil der Inoden-Datei 2346 des aktiven 
Dateisystems. In ahnlicher Weise enthalt die durch die Inode 2308A der 
Inoden-Datei 2346 referenzierte Datei 2340 Blocke 2310 und 2312. Der 
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B,ock 2314 is, nich. mehr Bes.and.eil der Da,ei 2340 innerhaib dieses 

EL—. - ~ — 2316 ' und d !T d : 

den, neuen Ko„sis.enzpu„k, wahrend Block 2320 nich. Bested der 
D l 2342 is, Wei,erhin referenzier. der B,ock 2308 der ,noden-Da,e. 
2346 eine neue blkmap-Dalei 2344 mil dem Block 2326. 

Wie in Figur 17L gezeig. is, wird in einem Konsis.enzpunk. das aktive 

l*z — * — - • - * - in r :Tb^ 

den Fsinfo-Block 2302 einkopier. wird. Allerdings verble.ben *. Bl«ke 
231 4 2320 2324 und 2306 des vorhergehenden Konsistenzpunte auf d r 
Die se B16cke werden beim Akmalisieren des Da.eisys.ems niemafc 
Lschrieben, urn » S— daB sowoh, de r a,.e ^ 

1830 ais auch der neue Konsis.enzpunk. 1»1 «f - Pla«.e vorhanden 

sind, siehe Figur 20 und Schritt 540. 

S^nappschiisse 

Das WAFL-S,,em arbeUe, mi. SchnappschBsse, Bin S— uB^er 
eine MomenUumahme ist eine „ur lesbare Kopie ernes gesam.en Da,e,sy 
. I , einem gegebenen AugenbHck, zu we,chem de, ■ 

erzeug, wird. Bin neu erzeugrer ScbnappscbuB bezieh. s.cb auf exak, d,e- 
rbnPUt.enb.acke, wie dies das akrive Da.eisys.em m, Deshalb wrder 
Lbaib einer kurzen ZeUspanne erzeug, und ^ 
chen Piattenspeicherpla.z. Nur wenn Da.e„bl6cke mnerhalb des akuven 
M ^J y ,ems modify und in neue S.eHen au f der PVane gesctaeben 
werdeu,beginn.derScbnappschuB,beso„derenP.aUzubeansp ro ehen. 

WAFL Ml, bis - 20 un.erschiediiche Schnappschusse, die von , , bis*, 
numerier, sind. Dami. ermOgHch, WAFL die Erzeugung 
M „e« desseiben Da.eisys,ems. Jeder SchnappschuB wrd durch erne 
Sc Jp cbu-S-mode repr.en.ier, die ahnhch der Dars,eHung des aknven 
"ems durch eine WurzeUnode is, SchnappschOsse werden erzeug. 
, - n ,„.iziere„ der Wurzeldatensttuktor des Da.eisys.ems. In der be- 
r^S— « - Wurzeid—r die WurzeHnode. 
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Allerdings konnte auch jede andere Datenstruktur verwendet werden, die 
reprasentativ fur ein gesarntes Dateisystem ist. Die Schnappschufi-Inoden 
befinden sich an einer festen Stelle innerhalb der Inoden-Datei. Die Be- 
grenzung auf 20 Schnappschusse wird durch die GroBe der Blockabbild- 
Eintrage bestimmt. WAFL erfordert zwei Schritte zum Erzeugen eines 
neuen Schnappschusses N: Kopieren der Wurzelanode in die Anode fur 
den SchnappschuB N und Kopieren des Bits 0 in das Bit N jedes Blockab- 
bild-Eintrags innerhalb der blkmap-Datei. BitO gibt die Blocke an, die von 
dem Baum unterhalb der Wurzelinode referenziert werden. 

Das Ergebnis ist ein neuer Dateisystembaum, dessen Wurzel gebildet wird 
durch die SchnappschuB-Inode N, die exakt dieselben Plattenblocke refe- 
renziert wie die Wurzelinode. Durch Einstellen eines entsprechenden Bits 
in der Blockabbildung far jeden Block in dem SchnappschuB wird verhin- 
dert, daB SchnappschuB-Blocke freigesetzt werden, selbst wenn die aktive 
Datei die SchnappschuB-Blocke nicht mehr verwendet. Da WAFL stets 
neue Daten auf unbenutzte Speicherplatze schreibt, andert sich der 
SchnappschuB-Baum selbst dann nicht, wenn das aktive Dateisystem sich 
andert. Da ein neu erzeugter SchnappschuB-Baum exakt die gleichen 
Blocke wie die Wurzelinode referenziert, verbraucht er keinen zusatzli- 
chen Plattenspeicherplatz. Im Lauf der Zeit referenziert der SchnappschuB 
Plattenblocke, die ansonsten freigesetzt wurden. Damit benutzen im Ver- 
lauf der Zeit der SchnappschuB und das aktive Dateisystem immer weniger 
Blocke, so daB der von dem SchnappschuB beanspruchte Raum zunimmt. 
Schnappschusse konnen geloscht werden, wenn sie eine nicht mehr akzep- 
tierbare Anzahl von Plattenblocken belegen. 

Die Liste aktiver Schnappschusse wird zusammen mit den Namen der 
Schnappschusse in einer SchnappschuB- Verzeichnis genannten Metadaten- 
Datei abgespeichert. Der Plattenzustand wird in der oben beschriebenen 
Weise aktualisierL Wie bei samtlichen anderen Anderungen erfolgt die 
Aktualisierung durch automatisches Weiterschreiten von einem Konsi- 
stenzpunkt zxun anderen. Modifizierte Blocke werden in unbenutzte Platze 
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auf der Platte geschrieben, woraufhin eine neue Wurzelinode, welche das 
aktualisierte Dateisystem beschreibt, geschrieben wird. 

ITherhlick Srhnappschiisse 

Figur 18A ist ein Diagramm des Dateisystems 1830, bevor ein Schnapp- 
schuB aufgenommen wird, wobei Umwege-Ebenen entfernt wurden, um 
einen einfacheren Uberblick fiber das WAFL-Dateisystem zu ermoglichen. 
Das Dateisystem 1830 reprasentiert das in Figur 16 gezeigte Dateisystem 
1690. Das Dateisystem 1830 besteht aus Blocken 1812 bis 1820. Die Inode 
der Inoden-Datei ist in dem Fsinfo-Block 1810 enthalten. Wahrend eine 
einzelne Kopie des Fsinfo-Blocks 1810 in Figur 18A dargestellt ist, ver- 
steht sich naturlich, daB auf der Platte eine zweite Kopie des Fsinfo-Blocks 
vorhanden ist. Die in dem Fsinfo-Block 1810 enthaltene Inode 1810A ent- 
halt 16 Zeiger, die auf 16 Blocke mit gleicher Umwegeebene zeigen. Die 

Blocke 1810-1820 in Figur 18A reprasentieren samtliche Blocke innerhalb 

des Dateisystems 1830 einschlieBlich direkte Blocke, indirekte Blocke, etc. 

Obschon lediglich funf Blocke 1812-1820 dargestellt sind, kann jeder 

Block auf weitere Blocke verweisen. 

Figur 18B ist ein Diagramm, das die Erzeugung eines Schnappschusses 
zeigen. Der SchnappschuB wird fur das gesamte Dateisystem 1830 dadurch 
erstelit, daB einfach die Inode 1810A der Inoden-Datei kopiert wird, die in 
dem Fsinfo-Block 1810 gespeichert ist, wobei die Inode in die Schnapp- 
schuB-Inode 1822 einkopiert wird. Durch Einkopieren der Inode 1810A 
der Inoden-Datei wird eine neue Datei von Dioden erzeugt, die das gleiche 
Dateisystem wie das aktive Dateisystem reprasentiert, weil die Inode 
1810A der Inoden-Datei selbst kopiert wird. Es brauchen keine weiteren 
Blocke 1812-1820 dupliziert zu werden. Die kopierte Inode oder Schnapp- 
3 schuB-Inode 1822 wird dann in die Inoden-Datei einkopiert, was einen 
Block innerhalb der Inoden-Datei unsauber macht. Fur eine Inoden-Datex 
aus einer oder mehreren Umwegeebenen wird jeder indirekte Block w,e- 
derum unsauber gemacht. Dieser Vorgang des Verunreinigens von Blok- 
ken schreitet durch samtliche Umwegeebenen. Jeder 4-KB-Block inner- 
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halb der Inoden-Datei auf der Platte enthalt 32 Inoden, wo jede Inode 128 
Bytes Lange aufweist. 

Die neue SchnappschuB-Inode 1822 nach Figur 18B verweist zuruck auf 
die Blocke 1812-1820 hochster Umwegeebene, referenziert durch die Ino- 
de 1810A der Inoden-Datei, wenn der SchnappschuB 1822 aufgenommen 
wird. Die Inoden-Datei selbst ist eine rekursive Struktur, weil sie Schnapp- 
schusse des Dateisystems 1830 beinhaltet. Jeder SchnappschuB 1822 ist 
eine Kopie der Inode 181 OA der Inoden-Datei, welche in die Inoden-Datei 
einkopiert wird. 

Figur 18C ist ein Diagramm, das das aktive Dateisystem 1830 und den 
SchnappschuB 1 822 fur den Zeitpunkt veranschaulicht, zu dem eine Ande- 
rung des aktiven Dateisystems 1830 nach Aufhahme des Schnappschusses 
1822 stattfindet. Wie in dem Diagramm gezeigt, wird der Block 1818 mit 
den Daten „D" nach Aufhahme des Schnappschusses (Figur 1 8B) modifi- 
ziert, imd deshalb wird ein neuer Block 1824 mit Daten ,J) prime " fur das 
aktive Dateisystem 1830 zugeordnet. Damit enthalt das aktive Dateisystem 
1830 Blocke 1812-1816 und 1820-1824, es enthalt aber nicht den Block 
1818 mit den Daten „D". Allerdings wird der die Daten ,JD" enthaltende 
Block 1818 deshalb nicht uberschrieben, weil das WAFL-System keine 
Blocke auf der Platte uberschreibt. Der Block 1818 wird gegen ein Uber- 
schreiben von einem SchnappschuB-Bit geschutzt, welches in dem Block- 
abbild-Eintrag fur den Block 1818 gesetzt wird. Deshalb zeigt der 
SchnappschuB 1822 immer noch auf den unmodifizierten Block 1818 
ebenso wie auf die Blocke 1812-1816 und 1820. Die vorliegende Erfin- 
dung unterscheidet sich gemaB den Figuren 18A-18C von bekannten Sy- 
stemen, die „Klone" eines Dateisystems erzeugen, wobei ein Klon eine 
Kopie samtlicher Blocke einer Diodendatei auf einer Platte ist. Damit 
werden die gesamten Inhalte der herkommlichen Inoden-Dateien dupli- 
ziert, was groBe Mengen (MB) an Plattenspeicherplatz ebenso erfordert 
wie betrachtliche Zeit fur Platten-E/A-Operationen. 
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Wenn das aktive Dateisystem 1830 in Figur 18C modifiziert wird, benotigt 
es deshalb mehr Plattenspeicherraum, weil das Dateisystem mit den Blok- 
ken 1812-1820 nicht uberschrieben wird. In Figur 18C ist der Block 1818 
als ein direkter Block dargestellt. Bei einem wirklichen Dateisystem aller- 
5 dings kann der Block 1818 auch durch einen indirekten Block mittels Zei- 
ger angesprochen werden. Wenn also der Block 1818 modifiziert und an 
einen neuer Stelle der Platte als Block 124 abgespeichert wird, werden 
auch die entsprechenden direkten und indirekten Blocke kopiert und dem 
aktiven Dateisystem 1830 zugeordnet. 

10 

Figur 19 ist ein Diagramm, welches die Anderungen veranschaulicht, die 
im Block 1824 gemaB Figur 18C auftreten. Der Block 1824 nach Figur 
18C ist in der gestrichelten Linie 1824 in Figur 19 dargestellt. Figur 19 
veranschaulicht verschiedene Umwegeebenen fur den Block 1824 nach 

15 Figur 18C. Der neue Block 1910, welcher gemaB Figur 18C auf die Platte 
geschrieben wird, ist in Figur 19 mit 1910 bezeichnet. Weil der Block 
1824 einen Datenblock 1910 entbalt, welcher modifizierte Daten beinhal- 
tet, die durch einen doppelten Umweg oder doppelten Verweis referenziert 
werden, werden auch zwei weitere Blocke 1918 und 1926 modifiziert. Der 

20 Zeiger 1924 eines einfach-indirekten Blocks 1918 referenziert einen neuen 
Block 1910, und deshalb muB der Block 1918 an eine neue Stelle der Plat- 
te geschrieben werden. In ahnlicher Weise wird der Zeiger 1928 des indi- 
rekten Blocks 1926 modifiziert, da er auf den Block 1918 zeigt. Deshalb 
kann gemaB Figur 19 das Modifizieren eines Datenblocks 1910 zur Folge 

25 haben, daB mehrere indirekte Blocke 1918 und 1926 ebenfalls modifiziert 
werden. Dies macht es erforderlich, auch die Blocke 1918 und 1926 auf 
eine neue Stelle der Platte zu schreiben. 

Da die direkten und indirekten Blocke 1910, 1918 und 1926 des Daten- 
30 blocks 1824 in Figur 18C geandert und an eine neue Stelle geschrieben 
wurden, wird die Inode in der Inoden-Datei in einen neuen Block ge- 
schrieben. Der modifizierte Block der Inoden-Datei erhalt einen neuen 
Block auf der Platte, da Daten nicht uberschrieben werden konnen. 
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Wie in Figur 19 gezeigt ist, wird auf den Block 1910 durch indirekte Blok- 
ke 1926 bzw. 1918 gezeigt. Wenn also der Block 1910 modifiziert und an 
einer neuen Stelle der Platte gespeichert wird, werden auch die entspre- 
chenden direkten und indirekten Blocke kopiert und dern aktiven Dateisy- 
stem zugeordnet Damit muB eine Reihe von Datenstrukturen aktualisiert 
werden. Das Andern des direkten Blocks 1910 und der indirekten Blocke 
1918 und 1926 veranlaBt, daB die blkmap-Datei modifiziert werden muB. 

Die Schlusseldatenstrukturen fur Schnappschusse sind die Blockabbild- 
Eintrage, wo jeder Eintrag mehrere Bits fur einen SchnappschuB aufweist. 
Dies ermSglicht es, daB mehrere Schnappschusse erzeugt werden. Ein 
SchnappschuB ist ein Bild eines Baums von Blocken, die das Dateisystem 
(1830 in Figur 18) bilden. Solange keine neuen Daten auf Blocke des 
Schnappschusses geschrieben werden, wird das durch den SchnappschuB 
reprasentierte Dateisystem nicht geandert. Ein SchnappschuB ist einem 
Konsistenzpunkt ahnlich. 

Das erfindungsgemaBe Dateisystem ist vollstandig konsistent nach dem 
letzten Mai des Schreibens der Fsinfo-Blocke 1810 und 1870. Wenn daher 
das System einen Netzausfall erleidet, entsteht beim Neustart das Dateisy- 
stem 1830 in konsistentem Zustand. Da 8-32 MB Plattenspeicherraum bei 
einem typischen bekannten „Klon" eines 1-GB-Dateisystems verwendet 
werden, fiihren Klone nicht zu Konsistenzpunkten oder Schnappschussen 
wie die vorliegende Erfindung. 

Bezugnehmend auf Figur 22 existieren zwei friihere Schnappschusse 
2110A und 2110B auf der Platte. Zu dem Zeitpunkt, zu dem ein dritter 
SchnappschuB entsteht, wird die auf das aktive Dateisystem zeigende 
Wurzelinode in den Inodeneintrag 21 10C fur den dritten SchnappschuB in 
der Inoden-Datei 2110 kopiert. Gleichzeitig zeigt in dem durchgehenden 
Konsistenzpunkt ein Flag an, daB der SchnappschuB 3 erzeugt wird. Das 
gesamte Dateisystem wird verarbeitet, indem geprufl wird, ob BIT0 fur 
jeden Eintrag innerhalb der blkmap-Datei gesetzt (1) oder geloscht (0) ist. 
Samtliche BITO-Werte fur jeden BIockabbild-Eintrag werden in die Ebene 




fur den Schnappschufi 3 kopiert. Nach Beendigung ist jeder aktive Block 
2110-2116 und 1207 in dem Dateisystem zu diesem Zeitpunkt in dem 
Schnappschufi aufgenommen. 

5 Blocke, die durchgangig fur eine gegebene Zeitspanne auf der Platte exi- 
stiert haben, befinden sich ebenfalls in den entsprechenden Schnappschus- 
sen 2110A-2110B, die dem dritten Schnappschufi 21 10C vorausgehen. 
Wenn ein Block in dem Dateisystem fur eine ausreichend lange Zeitspanne 
verblieben ist, ist er in samtlichen Schnappschussen enthalten. Der Block 

10 1207 ist ein derartiger Block. Wie in Figur 22 gezeigt ist, wird der Block 
1207 durch die Inode 2210G der aktiven Inoden-Datei referenziert, aufier- 
dem indirekt diirch die Schnappschiisse 1, 2 und 3. 

Die sequentielle Reihenfolge von Schnappschussen reprasentiert nicht un- 
15 bedingt eine chronologische Reihenfolge von Dateisystem-Kopien. Jeder 
einzelne Schnappschufi in einem Dateisystem kann zu jeder gegebenen 
Zeit geloscht werden, urn dadurch einen Eintrag fur nachfolgenden Ge- 
brauch verfugbar zu machen. Wenn BIT0 eines blkmap-Eintrags, der das 
aktive Dateisystem referenziert, geloscht wird (was bedeutet, dafi der 
20 Block axis dem aktiven Dateisystem geloscht wurde), so kann der Block 
nicht noch einmal benutzt werden, wenn irgendeines der Schnappschufi- 
Referenzbits gesetzt wird. Dies deshalb, weil der Block Teil eines 
Schnappschusses ist, der noch in Gebrauch ist. Ein Block kann nur neu 
verwendet werden, wenn samtliche Bits in dem blkmap-Eintrag auf Null 
25 gesetzt sind. 



Algorithmus zum Erzeugen eines Schnappschusses 



Das Erzeugen eines Schnappschusses entspricht etwa exakt der Erzeugung 
30 eines regularen Konsistenzpunkts gemafi Figur 5. Im Schritt 510 werden 
samtliche unsauberen Inoden als in dem Konsistenzpunkt befmdlich mar- 
kiert. Im Schritt 520 werden regulare Dateien auf die Platte geraumt Im 
Schritt 520 werden Spezialdateien (das heifit die Inoden-Datei und die 
blkmap-Datei) auf Platte geraumt. Im Schritt 540 werden Fsinfo-Blocke 




auf Platte geraumt. Im Schritt 550 werden samtliche Inoden, die sich nicht 
im Konsistenzpunkt befanden, verarbeitet. Figur 5 wird oben im einzelnen 
beschrieben. Tatsachlich erfolgt das Erzeugen eines Schnappschusses als 
Teil der Erzeugung eines Konsistenzpunkts. Der Hauptunterschied zwi- 
schen der Erzeugung eines Schnappschusses und der eines Konsistenz- 
punkts besteht darin, daB samtliche Eintrage der blkmap-Datei das aktive 
FS-Bit in das SchnappschuB-Bit einkopiert haben. Das SchnappschuB-Bit 
reprasentiert den entsprechenden SchnappschuB, urn die Blocke in dem 
SchnappschuB gegen Uberschreiben zu schutzen. Das Erzeugen und das 
Loschen von Schnappschussen erfolgt im Schritt 530, da dies der einzige 
Punkt ist, an dem das Dateisystem vollstandig selbst konsistent ist und auf 
dem Wege zur Platte ist. 

Im Schritt 530 werden unterschiedliche Schritte durchgefiihrt, die dann in 
Figur 6 dargestellt sind, und zwar fur einen Konsistenzpunkt, wenn ein 
neuer SchnappschuB erzeugt wird. Die Schritte sind sehr ahnlich jenen fur 
einen regularen Konsistenzpunkt. Figur 7 ist ein FluBdiagramm, welches 
die Schritte zeigt, welche der Schritt 530 zum Erzeugen eines Schnapp- 
schusses umfaBt. Wie oben beschrieben, weist der Schritt 530 Plattenspei- 
cherplatz fur die blkmap-Datei und die Inoden-Datei zu und kopiert das 
aktive FS-Bit in das SchnappschuB-Bit, welches den entsprechenden 
SchnappschuB reprasentiert, urn die Blocke in dem SchnappschuB gegen 
Uberschreiben zu schutzen. 

Im Schritt 710 werden die Inoden der blkmap-Datei und des Schnapp- 
schusses auf Platte vorgeraumt. Zusatzlich zu dem Raumen der Inode und 
der blkmap-Datei in einen Block der Inoden-Datei (wie im Schritt 610 der 
Figur 6 fur einen Konsistenzpunkt), wird die Inode des erzeugten Schnapp- 
schusses auch in einen Block der Inoden-Datei geraumt. Dies garantiert, 
daB der Block in der Inoden-Datei, der die Inode des Schnappschusses 
enthalt, unsauber ist. 

Im Schritt 720 wird jeder Block in der blkmap-Datei unsauber gemacht. Im 
Schritt 760 (unten beschrieben) werden samtliche Eintrage in der blkmap- 
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Datei aktualisiert, und nicht nur die Eintrage in unsauberen Blocken. Somit 
mussen samtliche Blocke der blkmap-Datei hier als unsauber markiert 
werden, urn zu garantieren, daB der Schritt 730 fur sie Plattenspeicherplatz 

zum Schreiben zuweist. 

Im Schritt 730 wird fur samtliche unsauberen Blocke in der Inode und in 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
enthalten den Block in der Inoden-Datei, welche die Inode der blkmap- 
Datei, die unsauber ist, enthalt, auBerdem den Block, der die Inode fur den 
neuen SchnappschuB enthalt. 

Im Schritt 740 werden die Inhalte der Wurzelinode fur das Dateisystem in 
die Inode des Schnappschusses innerhalb der Inoden-Datei kopiert. Zu 
dieser Zeit wird jedem Block, der Teil des neuen Konsistenzpunkts ist und 
der auf Platte geschrieben wird, Plattenspeicherplatz zugeordnet. Damit 
kopiert ein Duplizieren der Wurzelinode in die SchnappschuB-Inode in 
wirksamer Weise das gesamte aktive Dateisystem. Die aktuellen Blocke, 
die in dem SchnappschuB enthalten sind, sind die gleichen Blocke des ak- 
tiven Dateisystems. 

Im Schritt 750 werden die Inoden der blkmap-Datei und der SchnappschuB 
in die Inoden-Datei kopiert. 

Im Schritt 760 werden Eintrage in der blkmap-Datei aktualisiert. Zusatz- 
lich zu dem Kopieren des aktiven FS-Bits in das CP-Bit fur die Eintrage 
wird das aktive FS-Bit auch in das dem neuen SchnappschuB entsprechen- 
de SchnappschuB-Bit kopiert. 

Im Schritt 770 werden samtliche unsauberen Blocke in den blkmap- und 
Inoden-Dateien auf Platte geschrieben. 

SchlieBlich werden zu einer gewissen Zeit Schnappschusse selbst aus dem 
Dateisystem entfernt, Schritt 760. Ein SchnappschuB wird dadurch aus 
dem Dateisystem entfernt, daB sein SchnappschuB-Inodeneintrag innerhalb 
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der Inoden-Datei des aktiven Dateisystems geloscht und jedes Bit, das der 
Schnappschufinummer in jedem Eintrag innerhalb der blkmap-Datei ent- 
spricht, geloscht wird. Es erfolgt eine Zahlung auch fur jedes Bit des 
Schnappschusses in samtlichen blkmap-Eintragen, die aus einem einge- 
stellten Wert geloscht werden, um dadurch eine Zahlung der durch Lo- 
schen des Schnappschusses freigesetzten Blocke zu schaffen (entsprechend 
der freigesetzten Menge an Plattenspeicherplatz). Das System entscheidet 
anhand des altesten Schnappschusses, welcher Schnappschufi geloscht 
werden soli. Auch Benutzer konnen von Hand spezifizierte Schnappschus- 
se loschen. 

Die vorliegende Erfindung begrenzt die Gesamtanzahl von Schnappschus- 
sen und fuhrt eine blkmap-Datei, die Eintrage mit Mehrfach-Bits zum Ver- 
folgen der Schnappschusse anstelle der Verwendung von Zeigern mit ei- 
nem COW-Bit, wie dies in Episode der Fall ist, aufweist. Ein nicht ver- 
wendeter Block enthalt fur samtliche Bits in seinem blkmap-Datei-Eintrag 
nur Nullen. Im Verlauf der Zeit wird das BITO fur das aktive Dateisystem 
ublicherweise zu einem gegebenen Zeitpunkt eingeschaltet. Das Setzen 
des BITO identifiziert den entsprechenden Block als in dem aktiven Datei- 
system zugeordnet. Wie oben angegeben, werden samtliche Schnapp- 
schuB-Bits zu Beginn auf Null gesetzt. Wenn das aktive Dateibit vor Set- 
zen irgendeines Schnappschufi-Bits geloscht ist, ist der Block in keinem 
auf Platte gespeicherten Schnappschufi vorhanden. Deshalb steht der 
Block sofort zur Neuzuweisung zur Verfugung und kann spater aus einem 
Schnappschufi nicht wiedergewonnen werden. 

Erzeupung eines Schnappschusses 

Wie oben beschrieben, ist ein Schnappschufi einem Konsistenzpunkt sehr 
ahnlich. Deshalb soli die Erzeugung eines Schnappschusses vmter Bezug- 
nahme auf die Unterschiede zwischen ihr und der Erzeugung eines Konsi- 
stenzpunkts gemafi Figuren 17A-17L erlautert werden. Figuren 21A-21F 
zeigen die Unterschiede bei der Erzeugung eines Schnappschusses. 



47 



Figuren 17A-17D zeigen den Zustand des WAFL-Dateisystems, wenn ein 
SchnappschuB begonnen wird. Samtliche unsauberen Inoden werden als in 
dem Konsistenzpunkt befindlich markiert, Schritt 510, und im Schritt 520 
werden die regularen Dateien auf Platte geraumt. Damit ist die Anfangs- 
5 verarbeitung fur einen SchnappschuB identisch mit der eines Konsistenz- 
punkts. Die Verarbeitung fur einen SchnappschuB unterscheidet sich im 
Schritt 530 von der des Konsistenzpunkts. Im folgenden wird die Verarbei- 
tung eines Schnappschusses gemaB Figur 7 erlautert 

10 Die folgende Beschreibung gilt fur einen zweiten SchnappschuB des 
WAFL-Dateisystems. Ein erster SchnappschuB ist in den blkmap- 
Eintragen der Figur 17C aufgezeichnet. Wie in den Eintragen 2324 A- 
2324M, den Blocken 2304-2306, 2310-2320 und 2324 dargestellt, sind 
diese in dem ersten SchnappschuB enthalten. Samtliche anderen Schnapp- 

15 schuB-Bits (BIT1-BIT20) haben angenommener Weise den Wert 0, was 
anzeigt, daB ein entsprechender SchnappschuB auf der Platte nicht vorliegt. 
Figur 21 A zeigt das Dateisystem nach AbschluB der Schritte 510 und 520. 

Im Schritt 710 werden Inoden 2308C und 2308D des Schnappschusses 2 
20 und der blkmap-Datei 2344 auf Platte geraumt. Dies stellt sicher, daB der 
Block der Inoden-Datei, der die SchnappschuB-2-Inode enthalten wird, 
unsauber ist. In Figur 2 IB werden Inoden 2308C und 2308D fur den 
SchnappschuB 2 und fur die blkmap-Datei 2344 vorgeraumt. 

25 Im Schritt 720 ist die gesamte blkmap-Datei 2344 unsauber gemacht Dies 
veranlaBt die gesamte blkmap-Datei 2344, im Schritt 730 Plattenraum zu- 
gewiesen zu bekommen. Im Schritt 730 wird Plattenraum fur unsaubere 
Blocke 2308 und 2326 fur die Inoden-Datei 2346 und die blkmap-Datei 
2344 gemaB Figur 21C zugewiesen. Angedeutet ist dies durch ein Drei- 

30 fachsternchen (***) neben den Blocken 2308 und 2326. Dies unterscheidet 
sich von der Erzeugung eines Konsistenzpunkts, bei dem Plattenspeicher- 
platz nur fur Blocke zugewiesen ist, deren Eintrage sich im Schritt 620 der 
Figur 6 innerhalb der blkmap-Datei 2344 geandert haben. Die blkmap- 
Datei 2344 nach Figur 21C enthalt einen einzelnen Block 2324. Wenn al- 
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lerdings die blkmap-Datei 2344 mehr als einen Block umfaBt, so wird im 
Schritt 730 Plattenspeicherplatz fur samtliche Blocke zugewiesen. 

Im Schritt 740 wird die Wurzelinode fur das neue Dateisystem in die Inode 
2308D fur SchnappschuB 2 kopiert. Im Schritt 750 werden die Inoden 
2308C und 2308D der blkmap-Datei 2344 und der SchnappschuB 2 auf 
Platte geraumt, wie in Figur 21D gezeigt ist Das Diagramm veranschau- 
licht, daB die SchnappschuB-2-Inode 2308D Blocke 2304 und 2308, nicht 
aber Block 2306 referenziert 

Im Schritt 760 werden Eintrage 2326A-2326L im Block 2326 der blkmap- 
Datei 2344 gemaB Figur 2 IE aktualisiert. Das Diagramm zeigt, daB das 
SchnappschuB-2-Bit (BIT2) ebenso wie das FS-BIT und das CP-BIT fur 
jeden Eintrag 2326A-2326L aktualisiert wird. Damit sind die Blocke 2304, 
2308-2312, 2316-2318, 2322 und 2326 im SchnappschuB 2 enthalten, die 
Blocke 2306, 2314, 2320 und 2324 jedoch nicht. Im Schritt 770 werden die 
unsauberen Blocke 2308 und 2326 auf Platte geschrieben. 

Die weitere Verarbeitung des Schnappschusses 2 ist identisch mit der Er- 
zeugung eines Konsistenzpunkts, wie dies in Figur 5 gezeigt ist. Im Schritt 
540 werden zwei Fsinfo-Blocke auf Platte geraumt. Figur 2 IF reprasentiert 
das WAFL-Dateisystem in einem konsistenten Zustand anschlieBend an 
diesen Schritt. Die Dateien 2340, 2342, 2344 und 2346 des konsistenten 
Dateisystems nach AbschluB des Schritts 540 sind durch gestrichelte Lini- 
en in Figur 21F angegeben. Im Schritt 550 wird der Konsistenzpunkt durch 
Verarbeitung der Inoden, die nicht in dem Konsistenzpunkt waren, abge- 
schlossen. 

ZugrifTszeit-Oberschreibungen 

Unix-Dateisysterne mussen in jeder Inode eine „Zugriffszeit" (atime von 
access time) enthalten. Atime gibt den Ietzten Zeitpunkt des Lesens der 
Datei an. Er wird jedesmal aktualisiert, wenn ein Zugriff auf die Datei er- 
folgt. Wenn also eine Datei gelesen wird, wird der Block, der die Inode in 




der Inoden-Datei enthalt, neu geschrieben, urn die Inode zu aktualisieren. 
Dies konnte von Nachteil fur die Erzeugung von Schnappschussen deshalb 
sein, weil als Konsequenz das Lesen einer Datei moglicherweise Speicher- 
platz auf der Platte benotigt. AuBerdem konnte das Lesen samtlicher Da- 
5 teien innerhalb des Dateisystems zur Folge haben, daB die gesamte Inoden- 
Datei dupliziert wird. Die vorliegende Erfindung lost dieses Problem. 

Wegen des Vorhandenseins von Atime konnte ein Lesevorgang mogli- 
cherweise Plattenspeicherplatz verbrauchen, da ein Modifizieren einer 
10 Inode zur Folge hat, daB ein neuer Block fur die Inoden-Datei auf die Plat- 
te geschrieben wird. AuBerdem konnte ein Lesevorgang moglicherweise 
fehlschlagen, wenn ein Dateisystem voll ist, demzufolge ein abnormaler 
Zustand des Dateisystems auftritt. 



15 Im allgemeinen werden Daten auf einer Platte in dem WAFL-Dateisystem 
nicht iiberschrieben, urn auf der Platte gespeicherte Daten zu schutzen. Die 
einzige Ausnahme dieser Regel besteht darin, daB Atime fur eine Inode 
iiberschreibt, wie dies in den Figuren 23A-23B gezeigt ist. Wenn ein 
,,Atime-Uberschreiben" stattfindet, bestehen die einzigen in einem Block 

20 der Inoden-Datei modifizierten Daten in Atime fur eine oder mehrere der 
Inoden, die sie enthalt, und der Block wird an derselben Stelle neu ge- 
schrieben. Dies ist die einzige Ausnahme innerhalb des WAFL-Systems. 
Im ubrigen werden neue Daten stets auf neue Plattenspeicherplatze ge- 
schrieben. 

25 

In Figur 23A sind die Atimes 2423 und 2433 einer Inode 2422 in einem 
alten WAFL-Inoden-Datei-Block 2420 und die SchnappschuBinode 2432, 
die den Block 2420 referenziert, dargestellt. Die Inode 2422 des Blocks 
2420 referenziert direkt den Block 2410. Atime 2423 der Inode 2422 ist 
30 ,,4/30 9:15 PM'\ wahrend Atime 2433 der SchnappschuB-Inode 2432 „5/l 
10:00 AM" ist. Figur 23 A veranschaulicht das Dateisystem vor einem 
Zugriff auf den direkten Puffer 2410. 




Figur 23B veranschaulicht die Inode 2422 des direkten Blocks 2410, nach- 
dem auf den direkten Block 2410 zugegriffen wurde. Wie in dem Dia- 
gramm dargestellt, wird die Zugriffszeit 2423 der Inode .2422 mit der 
Zugriffszeit 2433 des Schnappschusses 2432, den sie referenziert, uber- 
5 schrieben. Damit wird die Zugriffszeit 2423 der Inode 2422 fur den direk- 
ten Block 2410 „5/l 1 1:23 AM". 

Das Zulassen des Uberschreibens von Inoden-Datei-Blocken mit neuen 
ZugrifFszeiten (Atime) fuhrt zu einer leichten Inkonsistenz innerhalb des 

10 Schnappschusses. Die Atime fur eine Datei in einem SchnappschuB kann 
tatsachlich spater liegen als der Zeitpunkt, zu dem der SchnappschuB er- 
zeugt wurde. Um Benutzer an einem Feststellen dieser Inkonsistenz zu 
hindem, justiert WAFL den Wert Atime fur samtliche Dateien innerhalb 
eines Schnappschusses auf diejenige Zeit ein, zu der der SchnappschuB 

15 tatsachlich erzeugt wurde, und nicht auf die Zeit, zu der auf die Datei zu- 
letzt zugegriffen wurde. Diese SchnappschuBzeit wird in der Inode gespei- 
chert, die den SchnappschuB in seiner Gesamtheit beschreibt. Wenn folg- 
lich iiber den SchnappschuB zugegriffen wird, so wird die Zugriffszeit 
2423 fur die Inode 2422 stets in Form „5/l 10:00 AM" gemeldet Dies 

20 geschieht sowohl vor dem Aktualisieren, wenn man ,,4/30 9:15 PM" er- 
warten konnte, als auch nach der Aktualisierung, wenn „5/l 11:23 AM" 
erwartet werden konnte. Erfolgt ein Zugriff durch das aktive Dateisystem, 
so werden die Zeiten in der Form ,,4/30 9: 15 PM" und „5/l 1 1 :23 AM" vor 
bzw. nach dem Aktualisieren gemeldet. Auf diese Weise wird ein Verfah- 

25 ren zum Fuhren eines Dateisystems in einem konsistenten Zustand und 
zum Erzeugen von ausschlieBlich lesbaren Kopien des Dateisystems of- 
fenbart. 
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Patentanspriiche 

1. Verfahren zum Erzeugen eines Konsistenzpunkts, umfassend die 
Schritte: 

Markieren (510) einer Mehrzahl von Inoden, wobei eine Inode eine 
Dateidefinitionsstruktur ist, die zumindest eine Datei in einem Dateisy- 
stem beschreibt, die auf mehrere modifizierte Blocke in einem Dateisy- 
stem verweist, als in einem Konsistenzpunkt befindlich; 

Raumen (520) regularer Dateien sowie Metadateien (530) auf eine Spei- 
chereinrichtung ; 

Raumen (540) mindestens eines Blocks von Dateisysteminformation auf 
die Speichereinrichtung; und 

eraeutes Einstellen (550) jeglicher beruhrter Inoden, die nicht Teil des 
Konsistenzpunkts waren, in eine Warteschlange. 

2. Verfahren nach Anspruch 1, bei dem der Schritt des Raumens von 
Metadateien auf die Speichereinrichtung weiterhin folgende Schritte 
beinhaltet: 

Vorraumen (610) einer Inode aus einer Blockabbildungsdatei in eine 
Inodendatei; 
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Zuweisen (620) von Platz auf der Speichereinrichtung fur samtliche 
beriihrten Blocke in der Inode und den Blockabbildungsdateien; 

erneutes Raumen (630) der Inode fur die Blockabbildungsdatei; 

5 

Aktualisieren (640) einer Mehrzahl von Eintragen in der Blockab- 
bildungsdatei, wobei jeder Eintrag unter den mehreren Eintragen einen 
Block auf der Speichereinrichtung reprasentiert; und 

10 Schreiben (650) samtlicher beruhrter Blocke in der Blockabbildungsdatei 

und der Inodendatei auf die Speichereinrichtung. 
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